




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1大數(shù)據(jù)時代(shdi)的數(shù)據(jù)挖掘與商務智能第一頁,共八十二頁。2第四局部(jb)數(shù)據(jù)管理與數(shù)據(jù)挖掘概論第二頁,共八十二頁。3數(shù)據(jù)挖掘概況(gikung)從20世紀80年代中后期,知識發(fā)現(xiàn)的方法、技術和系統(tǒng)(xtng),從不同角度、不同領域和不同學科進行了研究和實踐,主要的學科有數(shù)據(jù)庫、統(tǒng)計學和機器學習。1989年 在底特律第11屆IJCAI會議上的KDD研討會。 1991年MIT 出版社出版了一本書 “Knowledge Discovery in Databases。1994年召開了一個國際會議(KDD94), 并于1996年由 MIT出版社又出版了一本書 “Advances in Know
2、ledge Discovery and Data Mining。第三頁,共八十二頁。4數(shù)據(jù)挖掘概況(gikung)1995年在加拿大的蒙特利爾召開KDD95,作為第一屆國際KDD會議,以后(yhu)每年一次,原為AAAI組織,1999年由ACM組織,改為SIGKDD。20*年、第12屆在美國費城Philadelphia。20*年在美國加州圣何塞SIGKDD07) 2021年在美國LAS VEGAS(SIGKDD08)。 “Data Mining and Knowledge Discovery 1997年創(chuàng)刊。(Springer,1997,20*。國外相應的研究小組的建立,接著數(shù)據(jù)挖掘公司風起云
3、涌。一些大公司建立數(shù)據(jù)挖掘小組和開發(fā)各種產品。國內研究小組的建立,一些公司也開始了數(shù)據(jù)挖掘工程。第四頁,共八十二頁。5數(shù)據(jù)挖掘概況(gikung)數(shù)據(jù)挖掘是20世紀80年代后期開展起來的一種新興技術。它是商業(yè)(shngy)、企業(yè)競爭和技術開展的需求的結果,數(shù)據(jù)挖掘技術是多種學科的交叉的產物。數(shù)據(jù)挖掘第五頁,共八十二頁。6數(shù)據(jù)挖掘任務(rn wu)數(shù)據(jù)挖掘任務技術分類預測Predication:用歷史預測未來描述Description:了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘的具體任務關聯(lián)分析序列(xli)模式分類預測聚集異常檢測第六頁,共八十二頁。7數(shù)據(jù)挖掘任務(rn wu)描述性分析聚類分析關聯(lián)(gun
4、lin)分析異常點分析、可視化預測性分析分類離散回歸分析連續(xù)時間序列分析第七頁,共八十二頁。8數(shù)據(jù)挖掘概況(gikung)數(shù)據(jù)挖掘技術根本內容框架數(shù)據(jù)預處理 1數(shù)據(jù)清理 2 數(shù)據(jù)變換 3數(shù)據(jù)集成 4數(shù)據(jù)歸約 5數(shù)據(jù)離散化數(shù)據(jù)挖掘根本方法 1關聯(lián)規(guī)那么2分類與預測3聚類數(shù)據(jù)挖掘的深入內容 1時間序列(xli)和序列(xli)2空間數(shù)據(jù)挖掘 3文本挖掘 4Web挖掘 5多媒體挖掘 6可視化第八頁,共八十二頁。9數(shù)據(jù)挖掘概況(gikung)由于任務不同,要求不同,數(shù)據(jù)不同,沒有單一的數(shù)據(jù)挖掘軟件可適用所有的情形。造成了各種方法都在快速(kui s)開展,各種數(shù)據(jù)挖掘軟件不斷增多。但商家近年來有逐漸減
5、少的趨勢,大公司的介入,一些大的有實力的公司開始更多占領市場。根本方法如上所述。軟件功能和性能有很大差異。選軟件應考慮的因素很多。第九頁,共八十二頁。10數(shù)據(jù)挖掘概況(gikung) 從問題答復的角度:有些問題可明確和準確答復要求(yoqi)這樣有些問題是給出可能的答復有些問題可能給出不太明確的答復有些問題可能給出可能錯誤的答復。這些答復從數(shù)據(jù)的角度:有些是查詢,有些是統(tǒng)計,有些是歸納,有些是推斷,有些預測,有些是分析。數(shù)據(jù)挖掘要答復那些不是簡單查詢和統(tǒng)計答復問題。第十頁,共八十二頁。11數(shù)據(jù)挖掘概況(gikung)無法準確答復的問題信貸中信用(xnyng)評估,信用(xnyng)卡評級,信用
6、(xnyng)卡欺詐銷售一個產品 廣告 材料 郵寄給誰保存客戶, 爭取客戶交叉銷售違規(guī)操作,欺詐行為發(fā)現(xiàn),異常發(fā)現(xiàn) 貨架貨物的擺放國民經濟各指標間的關系疾病, 病癥, 藥物, 療效之間的關系DNA序列的相似分析導致各種疾病的特定基因序列模式憑理論,經驗,群體分析,憑數(shù)據(jù)分析,挖掘第十一頁,共八十二頁。12數(shù)據(jù)挖掘概況(gikung)各種部門都面臨不同的挑戰(zhàn)一些面臨競爭的部門與企業(yè): 銀行,電信,保險,證券,商場,各種企業(yè)。這些企業(yè)關心的問題:爭取客戶,增大銷售,提高利潤。一些壟斷部門與企業(yè): 電力(dinl),稅務,社保。面對抱怨,面對抗爭,面對欺詐。政府和企業(yè)面臨科學決策第十二頁,共八十二頁
7、。13數(shù)據(jù)挖掘概況(gikung)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工程提到日程數(shù)據(jù)分析、決策支持系統(tǒng)、商業(yè)智能BI、 知識管理、客戶關系管理(CRM)、物流與供給鏈管理(SCM)、企業(yè)資源方案(ERP)、各種預測。政府、科技部門、大型企業(yè)工廠,公司,商場,經濟部門、金融機構(jn rn j u)銀行、證券、保險、電子商務、電子政務、各種“金 工程。第十三頁,共八十二頁。14數(shù)據(jù)挖掘概況(gikung)數(shù)據(jù)倉庫 將不同數(shù)據(jù)源、多年的數(shù)據(jù)經“整合 成一個有組織的便于分析的結構化的數(shù)據(jù)環(huán)境。 組織數(shù)據(jù)方法。數(shù)據(jù)挖掘: 從數(shù)據(jù)中找出推出,歸納出,預測、挖掘有用的信息,規(guī)律(gul),知識。 分析數(shù)據(jù)方法。第十四頁,
8、共八十二頁。15數(shù)據(jù)庫集成:數(shù)據(jù)倉庫技術所有(suyu)的數(shù)據(jù)在物理上集中在一起 虛擬數(shù)據(jù)庫技術數(shù)據(jù)外表上或者在邏輯上是集成在一起,然而它們的物理存貯那么是分散在Internet不同的數(shù)據(jù)效勞器上 數(shù)據(jù)挖掘概況(gikung)第十五頁,共八十二頁。16從兩種數(shù)據(jù)庫集成技術來看:數(shù)據(jù)倉庫技術實用于數(shù)據(jù)庫變動不太頻繁、數(shù)據(jù)庫中數(shù)據(jù)類型和使用方法比較接近的情況。虛擬(xn)數(shù)據(jù)庫技術實用于數(shù)據(jù)更新速度快、數(shù)據(jù)類型和使用方法完全不一樣的情況。 數(shù)據(jù)挖掘概況(gikung)第十六頁,共八十二頁。17聯(lián)機分析(fnx)處理60年代,關系數(shù)據(jù)庫之父提出了關系模型,促進了聯(lián)機事務處理(OLTP)的開展(數(shù)據(jù)以
9、表格的形式而非文件(wnjin)方式存儲)。1993年,提出了OLAP概念,認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此,提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。 OLTP數(shù)據(jù) OLAP數(shù)據(jù) 原始數(shù)據(jù) 導出數(shù)據(jù) 細節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù) 當前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 不可更新,但周期性刷新 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大面向應用,事務驅動 面向分析,分析驅動面向操作人員,支持日常操作 面向決策人員,支持管
10、理需要第十七頁,共八十二頁。18OLAP定義(dngy)OLAP(聯(lián)機分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行(jnxng)快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。(OLAP委員會的定義)OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是“維這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。第十八頁,共八十二頁。19數(shù)據(jù)倉庫與數(shù)據(jù)挖掘所處地位(dwi)決策支持系統(tǒng)OLAP數(shù)據(jù)挖掘數(shù) 據(jù) 倉 庫數(shù) 據(jù) 庫各種( zhn)信息系統(tǒng)各種( zhn)
11、管理系統(tǒng)搜索、抽取過濾萬維網信息發(fā)布信息檢索ACRMCRM第十九頁,共八十二頁。20數(shù)據(jù)挖掘發(fā)現(xiàn)知識(zh shi)類型 廣義型知識:反映同類事物共同性質(xngzh)的知識 特征型知識:反映事物各方面特征的的知識 差異型知識:反映不同事物之間屬性差異的知識 關聯(lián)型知識:反映事物之間依賴和關聯(lián)的知識 偏差型知識:揭示事物偏離常規(guī)的異常現(xiàn)象的知識 預測型知識:根據(jù)歷史與當前數(shù)據(jù)推測未來數(shù)據(jù)第二十頁,共八十二頁。21(B) DataInformation(A) Knowledge(Arrangement)(Transmit)Knowledge transmitted by character, s
12、ign, voice, etc.(B) Data arranged to be useful for decision makingINFORMATION(Recognition)(C) Knowledge(C) Recognition memorized personally or socially(D) Judgment or a system of judgment which has objective validityKNOWLEDGE(D) Knowledge(Judgment)(D) Knowledge(Judgment)What is the energy to bring s
13、uch transformation?(E) Computers ability to judge things automatically (F) Peoples ability to understand and learn thingsINTELLIGENCEInformation ScienceManagement ScienceKnowledge Science+Information, Knowledge, and Intelligence第二十一頁,共八十二頁。22A theory of organizational knowledge creation, which sugge
14、sts that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization. Shared mental modelsor technical skills1Metaphors, analogies, concepts, hypotheses, or models2Linkingexplicitknowledge3Lea
15、rning by doing4I. Nonaka and H. Takeuchi The Knowledge-Creating Company. How Japanese Companies Create the Dynamics of Innovation. Oxford University Press, 1995.GroupexplicitknowledgeIndividual explicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationInternalizationSocializationExterna
16、lizationKey Factor in Establishing the SchoolProf. Nonaka第二十二頁,共八十二頁。23應 用市場分析、預測和管理行銷(xngxio)策略, 客戶關系管理(CRM), 購貨籃分析, 市場分割風險分析、預測和管理風險預警, 客戶挽留, 改進的保險業(yè), 質量控制, 競爭分析欺詐檢測和管理證券違規(guī)操作,稅務偷漏,瞞報,信用卡欺詐行為判斷信用評估銀行信貸評估,信用卡評估第二十三頁,共八十二頁。24應 用宏觀經濟(指標之間關聯(lián),經濟指標的預測,預警)電信客戶細分,客戶流失,客戶挽留金融信用評估(pn ),洗錢,欺詐)情報文本挖掘,新聞組, 電子郵件,
17、 文檔)Web 挖掘信息過濾,個性化效勞,異常行為,)DNA 數(shù)據(jù)分析一些引起疾病的DNA序列,)人力資源配置如何有效進行人力分配醫(yī)療診斷中藥配伍規(guī)律零售業(yè)科學天氣預報,災難預測第二十四頁,共八十二頁。25KDnuggets對數(shù)據(jù)挖掘各種情況(qngkung)進行了調查從應用領域使用(shyng)工具使用方法數(shù)據(jù)挖掘組的地位數(shù)據(jù)庫的大小10G以上,100-1000G)數(shù)據(jù)格式文本和工具特定格式居多第二十五頁,共八十二頁。26銀行 17%生物/基因 8%E商務/Web 15%欺詐檢測 8%保險 6%投資/股票 4%藥品 5%零售業(yè) 6%科學數(shù)據(jù) 8%電信(dinxn) 11%其他 11%應用領域
18、情況(qngkung)2022第二十六頁,共八十二頁。27應用領域情況(qngkung) 2 0 0 6第二十七頁,共八十二頁。28應用領域情況(qngkung)2021170 voters第二十八頁,共八十二頁。29數(shù)據(jù)挖掘軟件(run jin) (May 2021) 347 voters第二十九頁,共八十二頁。30數(shù)據(jù)挖掘軟件(run jin) (May 2021) 第三十頁,共八十二頁。2021年 R以30.7%的得票率榮登榜首31第三十一頁,共八十二頁。32從技術看數(shù)據(jù)挖掘使用技術情況784 votes total (Feb 2005) Decision Trees/Rules (10
19、7)決策樹 14%Clustering (101)聚類 13%Regression (90)回歸 11%Statistics (80)統(tǒng)計 10%Visualization (63)可視化 8%Neural Nets (61)神經網絡 8%Association rules (54)關聯(lián)規(guī)則 7%Nearest Neighbor (34)最近鄰 4%SVM (Support vector machine) (31)支持向量機 4%Bayesian (30)貝葉斯 4%Sequence/Time series analysis (26)序列/時間序列分析 3%Boosting (25) 增強 3
20、%Hybrid methods (23) 混合方法 3%Bagging (20) 袋裝 3%Genetic algorithms (19)遺傳算法 2%Other (20) 其他 3%第三十二頁,共八十二頁。33數(shù)據(jù)挖掘任務(rn wu)類型 ( Dec 20*) 170 voters第三十三頁,共八十二頁。34數(shù)據(jù)類型 ( Sep 2021) 第三十四頁,共八十二頁。35數(shù)據(jù)挖掘系統(tǒng)的典型(dinxng)架構數(shù)據(jù)倉庫 數(shù)據(jù)清理與數(shù)據(jù)集成過濾 數(shù)據(jù)庫數(shù)據(jù)庫、數(shù)據(jù)倉庫管理系統(tǒng)數(shù)據(jù)挖掘引擎模型、模式評價可視化用戶界面數(shù)據(jù)挖掘方法庫其它數(shù)據(jù)源用戶知識庫World-WideWebOther InfoR
21、epositories第三十五頁,共八十二頁。36各行業(yè)電子商務網站算法層商業(yè)邏輯層行業(yè)應用層商業(yè)應用商業(yè)模型挖掘算法CRM產品推薦客戶細分客戶流失客戶利潤客戶響應關聯(lián)規(guī)則、序列模式、分類、聚集、神經元網絡、偏差分析WEB挖掘網站結構優(yōu)化網頁推薦商品推薦。基因挖掘基因表達路徑分析基因表達相似性分析基因表達共發(fā)生分析。銀行電信零售保險制藥生物信息科學研究。相關行業(yè)綜合(zngh)的數(shù)據(jù)挖掘解決方案復旦第三十六頁,共八十二頁。371. 業(yè)務分析Data SourceData Source 2. 數(shù)據(jù)收集與整理3 數(shù)據(jù)分析與處理4. 財務指標展示6.數(shù)據(jù)挖掘結果的解釋和展示7. 系統(tǒng)建設8. 嘗試應
22、用5. 數(shù)據(jù)挖掘建模商業(yè)銀行客戶違約模型(mxng)建立第三十七頁,共八十二頁。38數(shù)據(jù)挖掘在我國的前景(qinjng)國外數(shù)據(jù)挖掘已相當普遍,各大數(shù)據(jù)庫公司(n s)與典型產品IBM, Oracle, Microsoft) SPSS, SAS, BO國內情況如何:應用普遍性?對其相信程度?制約的因素?市場標準程度? 消費者成熟程度? 人為因素程度? 國內尚處開展階段,周期長,效益不明顯,數(shù)據(jù)積累不夠,人的認識程度,第三十八頁,共八十二頁。39為什么沒有廣泛(gungfn)使用?數(shù)據(jù)挖掘正在快速的開展技術的研究和開發(fā)已經走在很前沿的地方數(shù)據(jù)挖掘應用面已經擴充(kuchng)了很多但是仍然沒有希
23、望的高,為什么?希望在多少年內到達數(shù)十億元的盈利?是一種增值效勞Not bread-and-butter不能認為高不可攀,所以不去過問是一門年輕的技術,需要和實際結合,解決現(xiàn)實問題第三十九頁,共八十二頁。40數(shù)據(jù)挖掘國內應用存在(cnzi)的問題數(shù)據(jù)積累不充分、不全面業(yè)務模型構建困難(kn nn)缺少有經驗的實施者第四十頁,共八十二頁。41數(shù)據(jù)挖掘的方法論第四十一頁,共八十二頁。42知識發(fā)現(xiàn)(fxin)KDD的過程第四十二頁,共八十二頁。431.數(shù)據(jù)的選擇(xunz)與抽樣 根據(jù)用戶的需要從數(shù)據(jù)庫中選擇或抽樣一局部數(shù)據(jù)。2.數(shù)據(jù)預處理1數(shù)據(jù)的過濾:除噪聲去冗余 2數(shù)據(jù)的添補3數(shù)據(jù)歸約與約簡3.
24、數(shù)據(jù)轉換: 數(shù)據(jù)轉換的主要目的是消減數(shù)據(jù)維數(shù)或維數(shù)縮減4.數(shù)據(jù)挖掘:挖掘方法的使用5.結果的評價 1可視化表示2解釋3知識的使用6.循環(huán)第四十三頁,共八十二頁。44KDD過程(guchng)數(shù)據(jù)挖掘: KDD過程(guchng)的核心。Data CleaningData IntegrationDatabasesData WarehouseKnowledgeTask-relevant DataSelectionData MiningPattern Evaluation第四十四頁,共八十二頁。45數(shù)據(jù)挖掘的方法論有許多數(shù)據(jù)挖掘的方法論,比較典型有CRISP-DM Cross Industry St
25、andard Process for Data Mining SAS 提出的數(shù)據(jù)挖掘方法論SEMMA (Sample,Explore,Modify,Model Access)IBM 提出的通用(tngyng)數(shù)據(jù)挖掘方法The generic data mining method)第四十五頁,共八十二頁。46數(shù)據(jù)挖掘的方法論KDnugets 調查情況:各組織機構、公司、個人進行(jnxng)數(shù)據(jù)挖掘時使用的方法論(Aug 20*) 第四十六頁,共八十二頁。47CRISP-DM NCR SPSS等公司提供CRISP-DM跨行業(yè)數(shù)據(jù)挖掘標準數(shù)據(jù)挖掘方法論實現(xiàn)。主要包括以下(yxi)六個主要環(huán)節(jié):
26、問題業(yè)務理解(Business Understanding)數(shù)據(jù)理解(Data Understanding) 數(shù)據(jù)準備(Data Preparation)建立模型(Modeling )模型評估(Evaluation) 方案實施(Deployment)第四十七頁,共八十二頁。48CRISP-DM1.業(yè)務問題理解Business Understanding要解決哪類問題:在數(shù)據(jù)挖掘之前,收集與該工程有關的信息,確定數(shù)據(jù)挖掘要解決哪類問題。并把要解決的問題轉化為數(shù)據(jù)挖掘問題。資源的評估: 硬件資源,軟件資源,數(shù)據(jù)資源, 人力資源管理人員,業(yè)務人員,技術人員數(shù)據(jù)評估:數(shù)據(jù)數(shù)量,數(shù)據(jù)質量評估。工程成功估
27、計:成功后的效益(xioy),相應人員分 析、維護的增加。第四十八頁,共八十二頁。49如:一個電信(dinxn)領域的數(shù)據(jù)挖掘工程問題可為: 一些優(yōu)質(yuzh)客戶有什么特征? 哪些是不良客戶,他們有什么特征? 在欠費客戶中,哪些是惡意的欠費, 哪些是善意的欠費。 哪些客戶可能會有最好的潛力? 通過什么樣的標準來細分客戶? 如何來衡量客戶帶來的價值? 哪些是高價值客戶?如何去保住他們。第四十九頁,共八十二頁。50CRISP-DM2. 理解數(shù)據(jù) Data Understanding 從哪里進行數(shù)據(jù)的收集數(shù)據(jù)來源有那些各數(shù)據(jù)源數(shù)據(jù)描述:格式(g shi),含義數(shù)據(jù)質量外來數(shù)據(jù)有那些對數(shù)據(jù)的含義一
28、定要有深刻的理解才有可能從中找出挖掘規(guī)律和知識。第五十頁,共八十二頁。51CRISP-DM3. 準備數(shù)據(jù)Data Preparation數(shù)據(jù)選擇數(shù)據(jù)清理數(shù)據(jù)重構數(shù)據(jù)整合規(guī)格化:定出范圍標準化:解決不一致(yzh)數(shù)據(jù)準備會占用整個工程50%以上時間第五十一頁,共八十二頁。52CRISP-DM4. 建立模型(mxng)Modeling數(shù)據(jù)匯總概念描述關聯(lián)規(guī)那么相關分析分類與預測聚類第五十二頁,共八十二頁。53CRISP-DM5. 方案(fng n)評估Evaluation挖掘結果獲得知識的評估挖掘過程的評估來決定是否要反復,KDD是迭代過程第五十三頁,共八十二頁。54迭代(di di)過程第五十
29、四頁,共八十二頁。55CRISP-DM6. 方案實施(Deployment)發(fā)布挖掘結果獲得知識(zh shi)的評估決定實施方案Crisp-DM 1.0CRISP-DM 2.0 SIG WORKSHOP ANNOUNCEDCHICAGO, SEPTEMBER 26, 20* 第五十五頁,共八十二頁。56CRISP-DM各階段占用(zhn yn)時間和重要性1%10%方案實施5%10-20%建立模型和模型評估 15%50%數(shù)據(jù)準備5%10-20%數(shù)據(jù)理解70%10%問題理解占項目成功的重要性花費時間第五十六頁,共八十二頁。57數(shù)據(jù)挖掘需要(xyo)的人員 業(yè)務分析人員:要求精通業(yè)務,能夠解釋業(yè)
30、務對象,并根據(jù)各業(yè)務對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術,并對統(tǒng)計學有較熟練的掌握,有能力(nngl)把業(yè)務需求轉化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇適宜的技術。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術,并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。 第五十七頁,共八十二頁。58數(shù)據(jù)挖掘軟件(run jin)第五十八頁,共八十二頁。59數(shù)據(jù)挖掘軟件(run jin)的現(xiàn)狀國外Data Mining / Analytic Software Tools 534 voters (May 20*) 第五十九頁,共八十二頁。60數(shù)據(jù)挖掘軟件(run jin)的現(xiàn)狀國內第六十頁,共八十二
31、頁。61數(shù)據(jù)挖掘軟件(run jin)的開展代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代作為一個獨立的應用支持一個或者多個算法 獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預測模型系統(tǒng)集成 多個算法數(shù)據(jù)管理和預測模型系統(tǒng)intranet/extranet網絡計算支持半結構化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算設備的數(shù)據(jù)聯(lián)合 多個算法數(shù)據(jù)管理、預測模型、移動系統(tǒng)移動和各種計算設備普遍存在的計算模型 Robert Grossman的
32、觀點(gundin) (National Center for Data Mining, University of Illinois at Chicago)第六十一頁,共八十二頁。62數(shù)據(jù)挖掘軟件(run jin)的開展第一代數(shù)據(jù)挖掘軟件(run jin)第六十二頁,共八十二頁。63第一代數(shù)據(jù)挖掘軟件 CBA新加坡國立大學基于(jy)關聯(lián)規(guī)那么的分類算法,能從關系數(shù)據(jù)或者交易數(shù)據(jù)挖掘關聯(lián)規(guī)那么,使用關聯(lián)規(guī)那么進行分類和預測第六十三頁,共八十二頁。64數(shù)據(jù)挖掘軟件(run jin)的開展第二代數(shù)據(jù)挖掘軟件(run jin)特點與數(shù)據(jù)庫管理系統(tǒng)DBMS集成 支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能
33、的接口,具有高的可擴展性 能夠挖掘(wju)大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集 通過支持數(shù)據(jù)挖掘模式data mining schema和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作缺陷只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)第六十四頁,共八十二頁。65數(shù)據(jù)挖掘軟件(run jin)的開展第二代數(shù)據(jù)挖掘軟件(run jin) DBMiner第六十五頁,共八十二頁。66數(shù)據(jù)挖掘軟件(run jin)的開展第二代軟件(run jin) SAS Enterprise Miner第六十六頁,共八十二頁。67數(shù)據(jù)挖掘軟件(run
34、 jin)的開展第三代數(shù)據(jù)挖掘軟件(run jin)特點和預言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產生的模型的變化能夠及時反映到預言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產生的預言模型能夠自動地被操作(cozu)型系統(tǒng)吸收,從而與操作(cozu)型系統(tǒng)中的預言模型相聯(lián)合提供決策支持的功能 能夠挖掘網絡環(huán)境下Internet/Extranet的分布式和高度異質的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成 缺陷不能支持移動環(huán)境第六十七頁,共八十二頁。68數(shù)據(jù)挖掘軟件(run jin)的開展第三代軟件(run jin) SPSS Clementine以PMML的格式(g shi)提供與預言模型系統(tǒng)的接口第六
35、十八頁,共八十二頁。69數(shù)據(jù)挖掘軟件(run jin)的開展第四代數(shù)據(jù)挖掘軟件(run jin)特點目前(mqin)移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結合是當前的一個研究領域。 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在ubiquitous計算設備產生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)剛剛起步,PKDD2022上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學University of Maryland Baltimore County正在研制的CAREER數(shù)據(jù)挖掘工程的負責人,該工程研究期限是2022年4月到20*
36、年4月,目的是開發(fā)挖掘分布式和異質數(shù)據(jù)Ubiquitous設備的第四代數(shù)據(jù)挖掘系統(tǒng)。 第六十九頁,共八十二頁。70數(shù)據(jù)挖掘軟件(run jin)的開展第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預處理方面有一定缺陷(quxin) 第三、四代系統(tǒng)強調預言模型的使用和在操作型環(huán)境的部署 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預言模型系統(tǒng)之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,局部第二代系統(tǒng)開發(fā)商開始研制相應的第三代數(shù)據(jù)挖掘系統(tǒng),比方 IBM Int
37、elligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)剛剛起步。第七十頁,共八十二頁。71數(shù)據(jù)挖掘軟件(run jin)的開展數(shù)據(jù)挖掘軟件開展(kizhn)的三個階段獨立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案Gregory Piatetsky-Shapiro的觀點(gundin)the President of KDnuggets 第七十一頁,共八十二頁。72數(shù)據(jù)挖掘軟件(run jin)的開展獨立的數(shù)據(jù)挖掘軟件(run jin)95年以前特點獨立的數(shù)據(jù)挖掘軟件對應第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術開展(kizhn)早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,
38、就形成一個軟件。這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術有相當?shù)牧私猓€要負責大量的數(shù)據(jù)預處理工作。比方C4.5決策樹,平行坐標可視化parallel-coordinate visualization。 第七十二頁,共八十二頁。73橫向(hn xin)的數(shù)據(jù)挖掘工具集95年開始開展原因隨著數(shù)據(jù)挖掘應用的開展,人們逐漸認識到數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結合:1數(shù)據(jù)庫和數(shù)據(jù)倉庫;2多種類型的數(shù)據(jù)挖掘算法;3數(shù)據(jù)清洗、轉換等預處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理(gunl),所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結合是自然的開展。 現(xiàn)實領域的問題是多種多樣的,一種或
39、少數(shù)數(shù)據(jù)挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉換等數(shù)據(jù)預處理的配合,才能得出有價值的模型 第七十三頁,共八十二頁。74橫向(hn xin)的數(shù)據(jù)挖掘工具集95年開始開展過程隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集的數(shù)據(jù)挖掘軟件特點此類工具集的特點是提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉換和可視化 由于(yuy)此類工具并非面向特定的應用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具Horizontal Data Mining Tools 由于此類工具并非面向特定的應用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具典型的橫向工具有IBM I
40、ntelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 第七十四頁,共八十二頁。75橫向(hn xin)的數(shù)據(jù)挖掘工具集95年開始IBM Intelligent MinerSPSS的ClementineSAS的Enterprise MinerSGI的MineSetOracle Darwin第七十五頁,共八十二頁。76縱向(zn xin)的數(shù)據(jù)挖掘解決方案99年開始開展原因隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能(cinng)熟練使用,如果對算法不了解,難以得出好的模型 從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案Vertical Solution,即針對特定的應用提供完整的數(shù)據(jù)挖掘方案 對于縱向的解決方案,數(shù)據(jù)挖掘技術的應用多數(shù)還是為了解決某些特定的難題,而嵌入在應用系統(tǒng)中第七十六頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 刊物活動策劃合同范例
- 佛山勞動合同范例范例
- 山地城市歷史名園恢復性環(huán)境研究
- 個人藥店合同范例
- 養(yǎng)殖鴕鳥訂單合同范例
- 加工煤炭合同范本
- 公產房交易合同范例
- ppp框架合同范例
- 加盟店手藝轉讓合同范例
- 企業(yè)轉移員工勞動合同范例
- 2020-2024年五年高考語文真題分類匯編專題04 古代詩歌鑒賞(解析版)
- 女神節(jié)花藝沙龍活動
- 大劇院音視頻系統(tǒng)工程調試方案
- 社區(qū)商業(yè)招商與運營管理方案
- 人教PEP版(2024)三年級上冊英語Unit 6《Useful numbers》單元作業(yè)設計
- 魔發(fā)奇緣電影中英文對白
- 浙江省寧波市九校2023-2024學年高二下學期期末聯(lián)考數(shù)學試題2
- 事業(yè)單位公開招聘分類考試公共科目筆試考試大綱2022年版
- 8 歌曲 《郵遞員叔叔來了》課件(13張內嵌視頻)
- 網絡數(shù)據(jù)安全風險治理與防護項目需求說明
- GB/T 14020-2024氫化松香
評論
0/150
提交評論