培訓(xùn)_數(shù)據(jù)挖掘 - 副本

上傳人：紅*** IP屬地：江蘇上傳時(shí)間：2015-07-03 格式：PPT 頁數(shù)：92 大小：7.72MB 積分：7.2 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩87頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

版權(quán)所有嚴(yán)禁拷貝 BIhuman培訓(xùn)中心數(shù)據(jù)挖掘數(shù)據(jù)倉庫培訓(xùn) 中國杭州 2010-07-03 版權(quán)所有嚴(yán)禁拷貝數(shù)據(jù)挖掘基本概念與應(yīng)用分類不同類型的數(shù)據(jù)挖掘流失預(yù)測交易量 /業(yè)務(wù)量預(yù)測序列模式提取客戶欺詐識別業(yè)務(wù)量收入量預(yù)測數(shù)據(jù)探索客戶分群套餐交叉銷售文本分析 . 探索驗(yàn)證獲取內(nèi)容的不同，可分為分析對象的不同，可分為結(jié)構(gòu)化數(shù)據(jù)挖掘文本挖掘圖像挖掘空間數(shù)據(jù)挖掘 Web 數(shù)據(jù)挖掘多媒體挖掘生物醫(yī)學(xué)數(shù)據(jù)挖掘流數(shù)據(jù)的挖掘數(shù)據(jù)挖掘是 “從數(shù)據(jù)中獲取不平凡的、隱含的、預(yù)先未知的 ,、具有潛在價(jià)值的信息 G. Piatetsky-Shapiro, W. J. Frawley 首次出現(xiàn)在 1989年數(shù)據(jù)挖掘是多學(xué)科交叉研究的領(lǐng)域 Data Mining Database Systems Statistics Other Disciplines Algorithm Machine Learning Visualization . 數(shù)據(jù)挖掘在很多領(lǐng)域得到很好的應(yīng)用大約 20個(gè) NBA球隊(duì)使用了 IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件 Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合 2004 美國聯(lián)邦政府會計(jì)總署報(bào)告顯示，美國政府部門積極參與或正在籌劃的數(shù)據(jù)挖掘項(xiàng)目為 199個(gè) 采用鏈路分析方法，分析特定的行為特征和恐怖犯罪之間的聯(lián)系 FBI對聯(lián)邦探員提交的情報(bào)進(jìn)行分析，尋找和爆炸事件的關(guān)聯(lián) + 啤酒尿布捆綁銷售 NBA賽場背后的數(shù)據(jù)挖掘 . 反恐領(lǐng)域的數(shù)據(jù)挖掘營銷領(lǐng)域的數(shù)據(jù)挖掘 7 關(guān)聯(lián) Association 我的數(shù)據(jù)中存在哪種項(xiàng)關(guān)系（“規(guī)則”）？ Beer = Diapers 單一事務(wù) Apriori/FreqTree 序列 Sequence 序列模式 sequence pattern 我的數(shù)據(jù)中存在哪種連續(xù)模式？ Love = Marriage = Baby Products 連續(xù)事務(wù) 時(shí)間序列 time series 和時(shí)間相關(guān)的，周期性變化值已知 2000-2008年數(shù)據(jù)，預(yù)測 2009年交易量 Arima/指數(shù)平滑聚類 clustering 我的數(shù)據(jù)中存在哪些群組？客戶資源集、存儲資源源人口統(tǒng)計(jì)學(xué) Demographic/神經(jīng)元 Neural (Kohonen) 分類 classfication 如何預(yù)測我的數(shù)據(jù)中各個(gè)類別的值？病人是否受到粗魯?shù)膶Υ?、是否受到傷害、是否?受不到關(guān)愛？ Classification ( 決策樹 )/貝葉斯算法 Bayes/RBF算法預(yù)測 regression 如何預(yù)測我的數(shù)據(jù)中的數(shù)值？客戶對改進(jìn)做出反應(yīng)的可能性有多大？每個(gè)客戶本年度的消費(fèi)是多少？轉(zhuǎn)換回歸 /線性回歸多項(xiàng)式回歸 Select Transform Mine Assimilate Extracted Information Assimilated Information Selected Data Data Warehouse 數(shù)據(jù)挖掘工作臺挖掘模式庫業(yè)務(wù)分析擴(kuò)展的洞察力數(shù)據(jù)挖掘的常見模式（函數(shù)） Clustering分群最常用的聚類算法 K平均值算法，初始給定 k個(gè)類 , 按照四步完成 : 任意選擇 k個(gè)對象作為初始的分區(qū) 計(jì)算當(dāng)前簇的重心點(diǎn)，即當(dāng)前簇中所有點(diǎn)的平均值將其他數(shù)據(jù)對象賦給最近似的簇集重復(fù)第二步操作，直到不在發(fā)生變化 . 典型的分群算法 Kmeans 從數(shù)據(jù)集中尋找有趣的、關(guān)聯(lián)和相關(guān)性、頻繁出現(xiàn)的模式電信應(yīng)用上兩種不同類型的關(guān)聯(lián)規(guī)則 Association Rule關(guān)聯(lián)規(guī)則挖掘產(chǎn)品的正關(guān)聯(lián)與負(fù)關(guān)聯(lián) 用戶產(chǎn)品關(guān)聯(lián)模型客戶 -渠道 -產(chǎn)品適配模型規(guī)則 Item A = Item D， A為規(guī)則體， D為規(guī)則頭支持度 Support 代表規(guī)則出現(xiàn)頻繁程度 supp(A)=p(A)=0.75 supp(B)=p(B)= 0.67 置信度 Confidence代表規(guī)則出現(xiàn)強(qiáng)度 . conf(A=D)=p(D|A)=0.67 提升值 Lift 反映規(guī)則中個(gè)要素之間的附加信息 . Lift(A=D)=p(B|A)/p(B)=0.89 Lift 1 (complementary items). 互補(bǔ)關(guān)系 Lift 40 no no yes yes yes 30.40 a g e i n co me st u d e n t cre d i t _ ra t i n g b u ys_ co mp u t e r4 0 me d i u m no f a i r ye s4 0 l o w ye s f a i r ye s4 0 l o w ye s e x ce l l e n t no3 1 4 0 l o w ye s e x ce l l e n t ye s4 0 me d i u m ye s f a i r ye s4 0 me d i u m no e x ce l l e n t noDecision Tree 決策樹分類信息熵增益 Information Entropy 決策樹選取節(jié)點(diǎn)的規(guī)則選取節(jié)點(diǎn)評分 (預(yù)測 ) 理想模型該模型隨機(jī)評級字段重要性 (對預(yù)測目標(biāo)字段的相對貢獻(xiàn)度 ) PhotoTV 手機(jī)電視潛在客戶預(yù)測重要字段列表建立流失預(yù)測模型數(shù)據(jù) ETL流程（數(shù)據(jù)取樣、合并、過濾、隨機(jī)分割等）；預(yù)測建模流程（采用 CART決策樹算法）測試流程（對未知流失狀態(tài)的客戶進(jìn)行預(yù)測，輸出結(jié)果到表）客戶流失的決策規(guī)則分析例如，通過挖掘得到如下的決策規(guī)則：如果客戶 ARPU值在 40 60之間，在網(wǎng)時(shí)長小于 3年，且 IP費(fèi)用小于 10，那么這個(gè)客戶下月流失的可能性為 90。同樣條件，如果使用了 11808業(yè)務(wù)則流失的可能性為 10。根據(jù)這條信息，我們可以搜索數(shù)據(jù)集中的所有滿足這幾條特性的客戶，進(jìn)行針對性地營銷策略，如推銷 IP，以及 11808業(yè)務(wù)，進(jìn)行挽留。挖掘時(shí)間序列數(shù)據(jù) 時(shí)間序列數(shù)據(jù) 有序列值或者隨時(shí)間交替變化的時(shí)間組成數(shù)據(jù)每隔一定的時(shí)間間隔建立時(shí)間序列數(shù)據(jù)的主要特征趨勢，周期，季節(jié)，反常（ Trend, cycle, seasonal, irregular）應(yīng)用場景金融：股票價(jià)格 , 通貨膨脹 /緊縮 Industry: 電力消耗 power consumption Scientific: 實(shí)驗(yàn)結(jié)果 Meteorological: 氣象預(yù)報(bào) 時(shí)間序列分析時(shí)間序列運(yùn)動(dòng)的歸類長期或者趨勢運(yùn)動(dòng)（ Long-term or Trend movements ）在一段長期的時(shí)間范圍內(nèi)，運(yùn)動(dòng)大的走向，趨勢。周期性運(yùn)動(dòng)或周期性波動(dòng)（ Cyclic movements or cycle variations): l 圍繞趨勢線 /曲線長期擺動(dòng)，如業(yè)務(wù)周期，交易量等隨著時(shí)間周期性波動(dòng)。季節(jié)性運(yùn)動(dòng)或者季節(jié)性波動(dòng) (Seasonal movements or seasonal variations) 在連續(xù)個(gè)年份，每月的數(shù)字呈現(xiàn)季節(jié)性變動(dòng)。不規(guī)則運(yùn)動(dòng)或者隨即運(yùn)動(dòng) Irregular movements 時(shí)間序列分析 :分解一個(gè)時(shí)間序列為一下四種運(yùn)動(dòng) 加法模型 Additive Modal: TS=T+C+S+I 乘法模型 Multiplicative Modal: TS=TC S I 時(shí)間序列挖掘 Airline 航空公司旅客流量分析歐洲一家航空公司，利用 2000年 -2008年間每月旅客數(shù)，預(yù)測下一個(gè)月的旅客數(shù)量。 ARIMA Autoregressive Integrated Moving Average Exponential Smoothing Seasonal Trend Decomposition 數(shù)據(jù)挖掘基本概念常見的幾種挖掘模式文本挖掘介紹社會網(wǎng)絡(luò)及其在垃圾短信監(jiān)控中的應(yīng)用 IBM Infosphere Warehouse/Intelligent Miner 介紹內(nèi)容提綱大量保存的非結(jié)構(gòu)化信息 (文本 ) 呼叫中心問題報(bào)告修理報(bào)告保險(xiǎn)單病歷信息產(chǎn)品介紹案件登記信息問題 . .解決方法將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)，利用這些數(shù)據(jù)和已經(jīng)存在在數(shù)據(jù)倉庫與中的結(jié)構(gòu)化數(shù)據(jù)一起進(jìn)行分析，輔助我們決策不能直接采用現(xiàn)有的 BI工具進(jìn)行分析，提取其中有用的信息，并且實(shí)現(xiàn)業(yè)務(wù)上對各種非結(jié)構(gòu)化信息的需求 . 網(wǎng)站訪問記錄電子郵件留言信箱短信文本事件處理說明調(diào)查問卷數(shù)據(jù) 客戶投訴記錄文本分析 /文本挖掘文本分析或文本挖掘覆蓋如下內(nèi)容 : 文檔歸類 clustering，自動(dòng)歸類具有相似性的文檔，文檔聚類或者無監(jiān)督歸類 unsupervised categorization 自動(dòng)文檔分類 classfication 分類文檔到預(yù)先定義好的類別中，有監(jiān)督的歸類 supervised categorization 信息抽取 Information extraction 從文檔中抽取結(jié)構(gòu)化的信息，輔助結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析與挖掘信息提取 Information Extraction (IE) 實(shí)體或者關(guān)系的抽取 Entity & Relationship extraction 從人員，組織，電話號碼，電子郵件，網(wǎng)址，地址等實(shí)體解析 Entity resolution George W. Bush mentioned in line 14 of doc 5 same as President Bush mentioned in line 10 of doc 15 語義識別從文本中提取意見 Opinions, 觀點(diǎn) Reviews, 時(shí)間 Time, 事件 Events, 情緒 Sentiments, . 術(shù)語抽取到的結(jié)構(gòu)化數(shù)據(jù) 注解 Annotations 信息提取程序注解器 Annotators 結(jié)構(gòu)化的實(shí)體抽取種類基于規(guī)則的實(shí)體抽取 Rule based 正則表達(dá)式模式抽取電話號碼，身份證，網(wǎng)址，電子郵件地址，手機(jī)號碼等基于字典的實(shí)體抽取 List/dictionary based 采用公司的 LDAP 目錄去查找相應(yīng)的人名字，從產(chǎn)品介紹材料中抽取產(chǎn)品實(shí)體，從客服信息中提取意義一致，但表述不一致的實(shí)體，如客戶投訴信息中“信號不好”、“信號差”、“經(jīng)常掉線”等表達(dá)的是同一信息頻繁模式搜索抽取頻繁出現(xiàn)的模式，基于頻繁出現(xiàn)模式構(gòu)建字典，如從流失客戶的客服記錄中提取“信號差”、“費(fèi)用高”、“服務(wù)不及時(shí)”等文本，以及這些頻繁出現(xiàn)的模式之間的關(guān)聯(lián) 復(fù)雜的方法 Advanced 自然語言處理 Natural Language Processing，機(jī)器學(xué)習(xí) Machine learning，統(tǒng)計(jì)方法Statistical approaches 文本數(shù)據(jù)分析引擎非結(jié)構(gòu)化數(shù)據(jù) 結(jié)構(gòu)化數(shù)據(jù) 詞頻統(tǒng)計(jì) 規(guī)則查詢字典查找文本挖掘其他文本數(shù)據(jù) 結(jié)構(gòu)化數(shù)據(jù) 分析數(shù)據(jù) UIMA是一個(gè)開放的，面向行業(yè)的 ,可擴(kuò)展的文本分析開放平臺 , 用于構(gòu)建 /集成 /發(fā)布文本分析應(yīng)用 . UIMA是一個(gè)免費(fèi)的平臺， InfoSphere Warehouse中采用 UIMA來進(jìn)行實(shí)現(xiàn)文本分析中的信息抽取為集成的文本分析模塊定義一個(gè)通用的接口 ,使得不同分析方案和企業(yè)應(yīng)用之間協(xié)同工作提供文本分析的 SDK ,用于構(gòu)建，組織文本分析應(yīng)用 , 利用現(xiàn)有的分析組件，開發(fā)新的，可重用的文本分析組件 UIMA: 一個(gè)新的內(nèi)容處理和分析的標(biāo)準(zhǔn) Unstructured Information Management Architecture IBM Internal Component Repository 80+ Analysis Components and 23+ UIMA-based systems/solutions E.g., Deep and Shallow Parsing深淺解析 , Categorization歸類 , Summarization摘要 , Semantic Class Detection語義分類 , POS, English/Chinese/Japanese NE 實(shí)體解析 , Classifier Trainers分類 , Machine Translation機(jī)器翻譯 , Video and Speech Analytics視頻音頻分析 , BioInformatics生物智能分析基于 UIMA實(shí)現(xiàn)的產(chǎn)品 Lotus Workplace, Websphere Portal Server, OmniFind IBM 基于 UIMA 上的一些研究項(xiàng)目 Open-Domain Question Answering (ARDA/AQUAINT) Life Sciences/BioInformatics (Joint Program with Mayo Clinic, Sloan Kettering Cancer Center) Search and Categorization (IBM websites) Machine Translation (DARPA) Multi-Lingual/Multi-Modal Search (DARPA/TALES) Automatic Content Extraction (DARPA/ACE) Knowledge Integration and Knowledgebase Population (ARDA(DTO)/NIMD) Video Analysis (ARDA(DTO)/VACE, Marvel) Standard Analysis Component Plug-in Architecture in Streaming Analytic project Customer Relationship Management UIMA in IBM ， 2002年發(fā)布文本分析輔助客戶流失預(yù)測挖掘 Volumes of structured, well-organized demographic and transactional data Volumes of unorganized, unstructured data from call-center notes Volumes of unorganized, unstructured data from call-center notes 文本分析與挖掘 1. 字典查找 2. 頻繁模式搜索 3. 正則表達(dá)式規(guī)則查找 4. 文檔分類文本分析輔助客戶流失預(yù)測挖掘文本分析提高客戶流失預(yù)測模型的精度 2 2. 引入文本分析后模型的 lift 值增量 1 1. 傳統(tǒng)客戶流失預(yù)測模型的 lift 值正則表達(dá)式規(guī)則抽取 regular expression 電話號碼 (0086)21-23063185 網(wǎng)址： CIA book 數(shù)據(jù)集，提取國家的地理數(shù)據(jù)，經(jīng)緯度，面積等正則表達(dá)式規(guī)則抽取 -規(guī)則定義正則表達(dá)式規(guī)則抽取 -挖掘流程定義字典查找 Dictionary lookup JK supermark公司，為了提高人員的 IT技能水平，從全球 500強(qiáng)企業(yè)的招聘網(wǎng)站， job description信息中提取目前最常用的 IT技能字典查找 dictionary lookup字典定義 - C# , c#, C #, c # - C/C+, C, C+, c+, c +, C + - Database skills, Database, RBDMS, DB - DB2, DB/2, db/2, IBM DB2, IBM db2, db2 - Java, J2EE, j2ee, JSP, Java Server Pages - JavaScript, Javascript, javascript - Mac OS, MAC OS, MAC Os, Mac Os - MS SQL Server, Microsoft SQL Server - MySQL, MYSQL, MySql - Network, TCP/IP, TCP, IP, DNS - Oracle, oracle - Others OS, Solaris - Perl - PL/SQL, PL, SQL, Sql, sql - Python - Script, scripting languages, scripting, bash, ch, Ch, csh, sh, shell, tcsh - Unix/Linux, Unix, Linux, Debian, FreeBSD, GNU, gnu, GNU/Linux, Madriva, RedHat,AIX - Visual Basic, VB, VisualBasic - Web Services, SOA, WSDL, CORBA, SOAP - Web skills, Ajax, ajax, ASP, asp, html, HTML, php, PHP, XML, XSLT - Windows 字典查找 dictionary lookup挖掘流程構(gòu)建 37 年齡性別疼痛類型血壓膽固醇心電圖心率是否絞痛疾病史不良習(xí)慣家族史完整的例子：貝葉斯 /文本分析輔助病人心臟病診斷 38 Volumes of structured, well-organized demographic and transactional data 來自于電子病歷中的非結(jié)構(gòu)化的數(shù)據(jù) 3-5年吸煙史，過度飲酒缺乏鍛煉，輕微肥胖呼吸急促，曾經(jīng)有過糖尿病其他不良習(xí)慣。。。貝葉斯 /文本分析輔助病人心臟病診斷語義文本分析方法 : 1. 語義分析 2. 頻繁模式搜索 3. 字典查找貝葉斯 /文本分析輔助病人心臟病診斷文本分析輔助數(shù)據(jù)挖掘頻繁模式查找 Smokes and smokes for the keyword smoke 語義分析 obesity, adiposity, adiposeness and alimentary obesity 文本分析輔助數(shù)據(jù)挖掘構(gòu)建字典文本分析輔助數(shù)據(jù)挖掘字典查找構(gòu)建挖掘模型采用文本分析后的模型精度比較基于文本挖掘結(jié)果的關(guān)聯(lián)規(guī)則挖掘 highlighted factor physical inactivity increases the mortality risk by 1.82 or 82%. Furthermore, you learn that the factor was found with 23.75% of the patients, and 78.08% of these patients actually died. 分析結(jié)果在 Cognos中的展現(xiàn) -心臟病風(fēng)險(xiǎn)報(bào)告根據(jù)分析結(jié)果，確定是否需要做進(jìn)一步的診療數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?挖掘 -技術(shù) or藝術(shù) ? 方法論數(shù)據(jù)挖掘方法論實(shí)際工程中指導(dǎo)項(xiàng)目實(shí)施的方法每一階段的目標(biāo)、采用方法、輸出結(jié)果形式人員安排、方法、時(shí)間進(jìn)度安排等實(shí)施數(shù)據(jù)挖掘方法論所要達(dá)到的目的針對不同行業(yè)的數(shù)據(jù)挖掘方法論是挖掘項(xiàng)目開展的標(biāo)準(zhǔn)和指南指南控制數(shù)據(jù)挖掘工程項(xiàng)目中的風(fēng)險(xiǎn)，確保項(xiàng)目的成功實(shí)施，提供了保障 CRISP-DM 方法論 SEMMA 數(shù)據(jù)挖掘方法論目前業(yè)界公認(rèn)的兩種方法論： /polls/2004/data_mining_methodology.htm kdnuggets數(shù)據(jù)挖掘方法論的問卷調(diào)查：數(shù)據(jù)挖掘方法論 Fayyad 的數(shù)據(jù)挖掘多階段處理過程模型數(shù)據(jù)挖掘方法論由 SPSS、 NCR、 Daimler-Benz在 1996年制定 CRISP-DM是當(dāng)今數(shù)據(jù)挖掘業(yè)界通用流行的標(biāo)準(zhǔn)之一它強(qiáng)調(diào)數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用，解決商業(yè)中存在的問題，而不是把數(shù)據(jù)挖掘局限在研究領(lǐng)域 CRISP-DM(CRoss-Industry Standard Process Data Mining) Chapman,1996 數(shù)據(jù)挖掘方法論 Data Understanding Data Preparation Modelling Data Data Data Business Understanding Deployment Evaluation Data Unde standing Data Preparation Mode ing Deployment Evaluation usinessUnderstanding NCR,ISL, Daimler-Benz, OHRA CRISP-DM CRoss-Industry Standard Process-Data Mining 數(shù)據(jù)挖掘方法論 SEMMA數(shù)據(jù)挖掘系統(tǒng)模型 SAS,1998 Sample-數(shù)據(jù)取樣 Explore-數(shù)據(jù)特征探索、分析和預(yù)處理 Modify-數(shù)據(jù)調(diào)整和技術(shù)選擇 Model-模型的研發(fā)和知識的發(fā)現(xiàn) Assess-模型和知識的綜合解釋和評價(jià) 數(shù)據(jù)挖掘方法論數(shù)據(jù)挖掘方法論 IBM 閉環(huán)數(shù)據(jù)挖掘數(shù)據(jù)倉庫選擇的數(shù)據(jù) 選擇轉(zhuǎn)換挖掘理解轉(zhuǎn)換后的數(shù)據(jù) 可理解的信息抽取的信息一個(gè)過程，從大型數(shù)據(jù)庫中抽取以前沒有發(fā)現(xiàn)，可理解的，可操作的信息，用以支持企業(yè)關(guān)鍵性決策。數(shù)據(jù)挖掘 -技術(shù) or 藝術(shù) 算法及其展望常見的挖掘算法 Y軸X 軸過擬合局部極值孤立點(diǎn)影響局部極值過擬合欠學(xué)習(xí) “維度災(zāi)難“ “黑箱模型” 傳統(tǒng)的數(shù)據(jù)挖掘方法面臨的挑戰(zhàn) 傳統(tǒng)算法的弊端的根源：傳統(tǒng)的數(shù)據(jù)挖掘算法都是以經(jīng)典統(tǒng)計(jì)學(xué)中的大數(shù)定理為基礎(chǔ)，算法的結(jié)論都是在訓(xùn)練樣本趨于無窮的假設(shè)下得到的 , 然而在實(shí)際中訓(xùn)練樣本總是有限。傳統(tǒng)的算法 (如神經(jīng)網(wǎng)絡(luò)等）往往會出現(xiàn)如下弊端：過擬合用一個(gè)復(fù)雜的模型代表一個(gè)簡單的規(guī)律；局部極值得到的結(jié)果不是全局最優(yōu)；推廣能力差訓(xùn)練時(shí)效果好，預(yù)測時(shí)精度差； Support Vector Machine,最早由 Vapnik教授 1995年提出，最初用于求解兩類樣本的最優(yōu)分類面；后被應(yīng)用與分類、回歸、聚類等數(shù)據(jù)挖掘領(lǐng)域。同時(shí)控制模型的結(jié)構(gòu)風(fēng)險(xiǎn)（復(fù)雜度）和經(jīng)驗(yàn)風(fēng)險(xiǎn)（準(zhǔn)確度），避免過學(xué)習(xí)。 211m i n | | | |2s . t . ( ) 1 , 1 , 2 , . . . , .li ii i iCy b i l wwx結(jié)構(gòu)風(fēng)險(xiǎn) 經(jīng)驗(yàn)風(fēng)險(xiǎn) 兩類樣本最優(yōu)分類面數(shù)據(jù)挖掘中的新方法 SVM具有以下獨(dú)有的特點(diǎn)：解決局部極值問題求解二次優(yōu)化，得到全局最優(yōu)解，解決非線性難題將復(fù)雜的非線性問題轉(zhuǎn)變?yōu)榫€性求解；解決小樣本學(xué)習(xí)難題基于小樣本統(tǒng)計(jì)學(xué)習(xí)理論；解決海量數(shù)據(jù)難題理論上復(fù)雜度與樣本維數(shù)無關(guān)；解決欠學(xué)習(xí)、過學(xué)習(xí)難題同時(shí)優(yōu)化算法復(fù)雜性和學(xué)習(xí)精度；堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)，良好的推廣能力，處理海量數(shù)據(jù)的高效率，非常適合用于海量數(shù)據(jù)挖掘中，數(shù)據(jù)挖掘中一個(gè)熱點(diǎn)。數(shù)據(jù)挖掘中的新方法兩個(gè)有價(jià)值的方向： SVM聚類、 SVM規(guī)則挖掘。用于發(fā)現(xiàn)任意空間分布形狀的類別自動(dòng)決定類別數(shù) 高維數(shù)據(jù)的高速聚類避免類別之間相互重疊數(shù)據(jù)挖掘中的新方法 SVM聚類 SVM關(guān)聯(lián)規(guī)則挖掘消除孤立點(diǎn)對關(guān)聯(lián)規(guī)則的影響處理海量數(shù)據(jù)非常有效數(shù)據(jù)挖掘中的新方法核系列方法 (Kernel methods)：傳統(tǒng)的方法是將高維的問題映射到低維的空間，但是Kernel method,剛好相反。事實(shí)上 SVM就是 kernel method中的一種，還有很多種核方法核主元分析 Kernel PCA-用于數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理中；核邏輯回歸 Kernel Logistic Regression-用于海量數(shù)據(jù)的回歸分析核聚類分析 Kernel clustering; 核（偏）最小二乘 Kernel Least Squares . 數(shù)據(jù)挖掘中的新方法但一切不是絕對的！數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) ? 挖掘調(diào)優(yōu) 數(shù)據(jù)挖掘項(xiàng)目的調(diào)優(yōu) 數(shù)據(jù)挖掘項(xiàng)目的成功需要不斷地優(yōu)化挖掘流程營銷流程調(diào)優(yōu) 挖掘建模流程調(diào)優(yōu) 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 數(shù)據(jù)挖掘項(xiàng)目的調(diào)優(yōu) 營銷流程的調(diào)優(yōu) 目標(biāo)客戶群的調(diào)整套餐定價(jià) /組合的更改更改營銷渠道與流程根據(jù)不同生活習(xí)慣的人群選擇外呼的時(shí)段挖掘建模流程調(diào)優(yōu) 挖掘建模數(shù)據(jù)集的劃分合理的數(shù)據(jù)采樣、分層采樣、隨即采樣、順序采樣，處理小概率事件訓(xùn)練集、測試集、校驗(yàn)集合模型訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)采用相同的尺度變換挖掘建模流程調(diào)優(yōu) 算法調(diào)優(yōu) 根據(jù)數(shù)據(jù)分布特性選擇不同的算法避免盲目追求算法精度、選擇合適學(xué)習(xí)率、避免模型過擬合模型校驗(yàn)集用于最大化模型泛化能力不平衡樣本的算法及類別權(quán)值確定，必要時(shí)改變挖掘模式挖掘建模流程調(diào)優(yōu) 兩個(gè)定理 “奧卡姆剃刀”定理簡單就是最好的 “沒有免費(fèi)午餐”定理，“丑小鴨”定理沒有一種算法會在任何方面都占優(yōu) 分群過程中的建模流程調(diào)優(yōu) 群體數(shù)目確定群體數(shù)目奇數(shù)為佳，一般為 5-9個(gè)左右，加減 2進(jìn)行調(diào)整如需減少群體數(shù)目，加入總量變量，減少分量變量，減少相似度閾值增加群體數(shù)目，減少總量變量，增加分量變量，加大相似度閾值如果某類包含個(gè)體數(shù)量超過 50，考慮進(jìn)行迭代分群分群過程中的建模流程調(diào)優(yōu) 輸入變量的調(diào)整變量取值大部分為 0或其他固定值的變量不建議使用多個(gè)聰明變量之間相互重疊導(dǎo)致類別相互重疊時(shí)，增加變量個(gè)數(shù) 排除業(yè)務(wù)上有重疊的變量，如夜間通話時(shí)長和打折時(shí)段通話時(shí)長分群過程中的建模流程調(diào)優(yōu) 算法調(diào)優(yōu) K-Means 孤立點(diǎn)敏感、群體重疊、差別大時(shí)效果差；局部最優(yōu)；可擴(kuò)展性好，大數(shù)據(jù)集 Kohonan 結(jié)果對樣本次序有關(guān)、初始參數(shù)值的選擇 DBSCAN 可以發(fā)現(xiàn)任意形狀邊界，處理孤立點(diǎn)、需要更多的內(nèi)存、 I/O消耗 Distribution-Based Cluster 可以自動(dòng)發(fā)現(xiàn)群體個(gè)數(shù)，孤立點(diǎn)不敏感 Neural Cluster 有時(shí)候會陷入局部最優(yōu)解 SVC可以自動(dòng)確定群體個(gè)數(shù)，任意形狀邊界群，復(fù)雜性和字段數(shù)無關(guān) 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 數(shù)據(jù)調(diào)優(yōu)增加數(shù)據(jù)質(zhì)量數(shù)據(jù)探索：發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn)，了解數(shù)據(jù)分別模式處理缺失值，屬性變換，離散值變連續(xù)值解決數(shù)據(jù)分布不一致的問題， 0-1變換、 Z變換從業(yè)務(wù)角度看，無意義的變量不建議做挖掘模型的輸入變量數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 變量之間的相關(guān)性發(fā)現(xiàn)輸入樣本的變量之間的相關(guān)性變量之間耦合性強(qiáng)的變量不建議選取數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 設(shè)計(jì)派生變量盡量反映動(dòng)態(tài)的特性，加入時(shí)長、趨勢、占比、集中度派生變量要適當(dāng)，總量和分量、占比變量不宜同時(shí)出現(xiàn) 1 取景（尋找業(yè)務(wù)問題尋找業(yè)務(wù)增長空間） 2 構(gòu)建畫面的背景（定義業(yè)務(wù)問題） 4 根據(jù)天氣和光線的情況調(diào)整曝光程度等（調(diào)整建模方法和參數(shù)） 5 沖洗選擇一張最佳的照片（選擇一個(gè)最佳的模型） 6 后期美化處理（業(yè)務(wù)含義解釋和建議） 7 裝裱起來，掛在該掛的位置例如床邊，書桌或者客廳什么的（模型部署，用于改善實(shí)際的業(yè)務(wù)）數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) 數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) 更多的參考： (關(guān)于 PMML) (關(guān)于 CRISP-DM) /sigs/sigkdd(關(guān)于 KDD) (數(shù)據(jù)挖掘論壇） (Kernel Method與 SVM) 數(shù)據(jù)挖掘技巧會找：發(fā)現(xiàn)問題，以及解決問題的數(shù)據(jù)挖掘方法會用：處理數(shù)據(jù)，操作軟件會說：對挖掘結(jié)果給出解釋分析會試：需要不斷的調(diào)優(yōu)，改進(jìn)挖掘效果電信數(shù)據(jù)挖掘應(yīng)用電信運(yùn)營商面臨巨大客戶群，每個(gè)客戶需求不一樣； “ 一對一 ” 營銷模式；最大化組間差異性，最小化組內(nèi)差異性；了解客戶的構(gòu)成，發(fā)現(xiàn)客戶的需求，提高營銷的針對性。客戶分群客戶流失預(yù)測模型客戶流失預(yù)測背景客戶流失率高，移動(dòng)每月 2.2%, 每年損失將近 27客戶；吸引新客戶成本高，吸引新客戶 /保留現(xiàn)有客戶 6-8倍。

人人文庫> 全部分類> 生活休閑 > 攝影攝像

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

培訓(xùn)_數(shù)據(jù)挖掘 - 副本

文檔簡介

溫馨提示

最新文檔

評論

培訓(xùn)_數(shù)據(jù)挖掘 - 副本

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔