




已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
版權(quán)所有 嚴禁拷貝 BIhuman培訓(xùn)中心 數(shù)據(jù)挖掘數(shù)據(jù)倉庫培訓(xùn) 中國 杭州 2010-07-03 版權(quán)所有 嚴禁拷貝 數(shù)據(jù)挖掘基本概念與應(yīng)用分類 不同類型的數(shù)據(jù)挖掘 流失預(yù)測 交易量 /業(yè)務(wù)量預(yù)測 序列模式提取 客戶欺詐識別 業(yè)務(wù)量收入量預(yù)測 數(shù)據(jù)探索 客戶分群 套餐交叉銷售 文本分析 . 探索 驗證 獲取內(nèi)容的不同,可分為 分析對象的不同,可分為 結(jié)構(gòu)化數(shù)據(jù)挖掘 文本挖掘 圖像挖掘 空間數(shù)據(jù)挖掘 Web 數(shù)據(jù)挖掘 多媒體挖掘 生物醫(yī)學(xué)數(shù)據(jù)挖掘 流數(shù)據(jù)的挖掘 數(shù)據(jù)挖掘 是 “從數(shù)據(jù)中獲取 不平凡的、 隱含的、 預(yù)先未知的 ,、 具有潛在價值的 信息 G. Piatetsky-Shapiro, W. J. Frawley 首次出現(xiàn)在 1989年 數(shù)據(jù)挖掘是多學(xué)科交叉研究的領(lǐng)域 Data Mining Database Systems Statistics Other Disciplines Algorithm Machine Learning Visualization . 數(shù)據(jù)挖掘在很多領(lǐng)域得到很好的應(yīng)用 大約 20個 NBA球隊使用了 IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件 Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合 2004 美國聯(lián)邦政府會計總署報告 顯示 ,美國政府部門積極參與或正在籌劃的數(shù)據(jù)挖掘項目為 199個 采用鏈路分析方法,分析特定的行為特征和恐怖犯罪之間的聯(lián)系 FBI對聯(lián)邦探員提交的情報進行分析,尋找和爆炸事件的關(guān)聯(lián) + 啤酒尿布捆綁銷售 NBA賽場背后的數(shù)據(jù)挖掘 . 反恐領(lǐng)域的數(shù)據(jù)挖掘 營銷領(lǐng)域的數(shù)據(jù)挖掘 7 關(guān)聯(lián) Association 我的數(shù)據(jù)中存在哪種項關(guān)系(“規(guī)則”)? Beer = Diapers 單一事務(wù) Apriori/FreqTree 序列 Sequence 序列模式 sequence pattern 我的數(shù)據(jù)中存在哪種連續(xù)模式? Love = Marriage = Baby Products 連續(xù)事務(wù) 時間序列 time series 和時間相關(guān)的,周期性變化值 已知 2000-2008年數(shù)據(jù),預(yù)測 2009年交易量 Arima/指數(shù)平滑 聚類 clustering 我的數(shù)據(jù)中存在哪些群組? 客戶資源集、存儲資源源 人口統(tǒng)計學(xué) Demographic/神經(jīng)元 Neural (Kohonen) 分類 classfication 如何預(yù)測我的數(shù)據(jù)中各個類別的值? 病人是否受到粗魯?shù)膶Υ?、是否受到傷害、是否?受 不到關(guān)愛? Classification ( 決策樹 )/貝葉斯算法 Bayes/RBF算法 預(yù)測 regression 如何預(yù)測我的數(shù)據(jù)中的數(shù)值? 客戶對改進做出反應(yīng)的可能性有多大? 每個客戶本年度的消費是多少? 轉(zhuǎn)換回歸 /線性回歸多項式回歸 Select Transform Mine Assimilate Extracted Information Assimilated Information Selected Data Data Warehouse 數(shù)據(jù)挖掘 工作臺 挖掘模式庫 業(yè)務(wù)分析 擴展的洞察力 數(shù)據(jù)挖掘的常見模式(函數(shù)) Clustering分群 最常用的聚類算法 K平均值算法,初始給定 k個類 , 按照四步完成 : 任意選擇 k個對象作為初始的分區(qū) 計算當(dāng)前簇的重心點,即當(dāng)前簇中所有點的平均值 將其他數(shù)據(jù)對象賦給最近似的簇集 重復(fù)第二步操作,直到不在發(fā)生變化 . 典型的分群算法 Kmeans 從數(shù)據(jù)集中尋找有趣的、關(guān)聯(lián)和相關(guān)性、頻繁出現(xiàn)的模式 電信應(yīng)用上兩種不同類型的關(guān)聯(lián)規(guī)則 Association Rule關(guān)聯(lián)規(guī)則挖掘 產(chǎn)品的正關(guān)聯(lián)與負關(guān)聯(lián) 用戶產(chǎn)品關(guān)聯(lián)模型 客戶 -渠道 -產(chǎn)品適配模型 規(guī)則 Item A = Item D, A為規(guī)則體, D為規(guī)則頭 支持度 Support 代表規(guī)則出現(xiàn)頻繁程度 supp(A)=p(A)=0.75 supp(B)=p(B)= 0.67 置信度 Confidence代表規(guī)則出現(xiàn)強度 . conf(A=D)=p(D|A)=0.67 提升值 Lift 反映規(guī)則中個要素之間的附加信息 . Lift(A=D)=p(B|A)/p(B)=0.89 Lift 1 (complementary items). 互補關(guān)系 Lift 40 no no yes yes yes 30.40 a g e i n co me st u d e n t cre d i t _ ra t i n g b u ys_ co mp u t e r4 0 me d i u m no f a i r ye s4 0 l o w ye s f a i r ye s4 0 l o w ye s e x ce l l e n t no3 1 4 0 l o w ye s e x ce l l e n t ye s4 0 me d i u m ye s f a i r ye s4 0 me d i u m no e x ce l l e n t noDecision Tree 決策樹分類 信息熵增益 Information Entropy 決策樹 選取節(jié)點的規(guī)則 選取節(jié)點評分 (預(yù)測 ) 理想模型 該模型 隨機評級 字段重要性 (對預(yù)測目標(biāo)字段的相對貢獻度 ) PhotoTV 手機電視潛在客戶預(yù)測 重要字段列表 建立流失預(yù)測模型 數(shù)據(jù) ETL流程 ( 數(shù)據(jù)取樣、合并、過濾、隨機分割等); 預(yù)測建模流程(采用 CART決策樹算法) 測試流程(對未知流失狀態(tài)的客戶進行預(yù)測,輸出結(jié)果到表) 客戶流失的決策規(guī)則分析 例如,通過挖掘得到如下的決策規(guī)則: 如果客戶 ARPU值在 40 60之間,在網(wǎng)時長小于 3年,且 IP費用小于 10, 那么這個客戶下月流失的可能性為 90。 同樣條件,如果使用了 11808業(yè)務(wù)則流失的可能性為 10。 根據(jù)這條信息,我們可以搜索數(shù)據(jù)集中的所有滿足這幾條特性的客戶,進行針對性地營銷策略,如推銷 IP,以及 11808業(yè)務(wù),進行挽留。 挖掘時間序列數(shù)據(jù) 時間序列數(shù)據(jù) 有序列值或者隨時間交替變化的時間組成 數(shù)據(jù)每隔一定的時間間隔建立 時間序列數(shù)據(jù)的主要特征 趨勢,周期,季節(jié),反常( Trend, cycle, seasonal, irregular) 應(yīng)用場景 金融:股票價格 , 通貨膨脹 /緊縮 Industry: 電力消耗 power consumption Scientific: 實驗結(jié)果 Meteorological: 氣象預(yù)報 時間序列分析 時間序列運動的歸類 長期或者趨勢運動( Long-term or Trend movements ) 在一段長期的時間范圍內(nèi),運動大的走向,趨勢。 周期性運動或周期性波動( Cyclic movements or cycle variations): l 圍繞趨勢線 /曲線長期擺動,如業(yè)務(wù)周期,交易量等隨著時間周期性波動。 季節(jié)性運動或者季節(jié)性波動 (Seasonal movements or seasonal variations) 在連續(xù)個年份,每月的數(shù)字呈現(xiàn)季節(jié)性變動。 不規(guī)則運動或者隨即運動 Irregular movements 時間序列分析 :分解一個時間序列為一下四種運動 加法模型 Additive Modal: TS=T+C+S+I 乘法模型 Multiplicative Modal: TS=TC S I 時間序列挖掘 Airline 航空公司旅客流量分析 歐洲一家航空公司,利用 2000年 -2008年間每月旅客數(shù),預(yù)測下一個月的旅客數(shù)量。 ARIMA Autoregressive Integrated Moving Average Exponential Smoothing Seasonal Trend Decomposition 數(shù)據(jù)挖掘基本概念 常見的幾種挖掘模式 文本挖掘介紹 社會網(wǎng)絡(luò)及其在垃圾短信監(jiān)控中的應(yīng)用 IBM Infosphere Warehouse/Intelligent Miner 介紹 內(nèi)容提綱 大量保存的非結(jié)構(gòu)化信息 (文本 ) 呼叫中心 問題報告 修理報告 保險單 病歷信息 產(chǎn)品介紹 案件登記信息 問題 . .解決方法 將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),利用這些數(shù)據(jù)和已經(jīng)存在在數(shù)據(jù)倉庫與中的結(jié)構(gòu)化數(shù)據(jù)一起進行分析,輔助我們決策 不能直接采用現(xiàn)有的 BI工具進行分析,提取其中有用的信息,并且實現(xiàn)業(yè)務(wù)上對各種非結(jié)構(gòu)化信息的需求 . 網(wǎng)站訪問記錄 電子郵件 留言信箱 短信文本 事件處理說明 調(diào)查問卷數(shù)據(jù) 客戶投訴記錄 文本分析 /文本挖掘 文本分析或文本挖掘覆蓋如下內(nèi)容 : 文檔歸類 clustering, 自動歸類具有相似性的文檔,文檔聚類或者無監(jiān)督歸類 unsupervised categorization 自動文檔分類 classfication 分類文檔到預(yù)先定義好的類別中,有監(jiān)督的歸類 supervised categorization 信息抽取 Information extraction 從文檔中抽取結(jié)構(gòu)化的信息 ,輔助結(jié)構(gòu)化數(shù)據(jù)進行分析與挖掘 信息提取 Information Extraction (IE) 實體或者關(guān)系的抽取 Entity & Relationship extraction 從 人員,組織,電話號碼,電子郵件,網(wǎng)址,地址等 實體解析 Entity resolution George W. Bush mentioned in line 14 of doc 5 same as President Bush mentioned in line 10 of doc 15 語義識別 從文本中提取意見 Opinions, 觀點 Reviews, 時間 Time, 事件 Events, 情緒 Sentiments, . 術(shù)語 抽取到的結(jié)構(gòu)化數(shù)據(jù) 注解 Annotations 信息提取程序 注解器 Annotators 結(jié)構(gòu)化的實體抽取種類 基于規(guī)則的實體抽取 Rule based 正則表達式模式抽取電話號碼,身份證,網(wǎng)址,電子郵件地址,手機號碼等 基于字典的實體抽取 List/dictionary based 采用公司的 LDAP 目錄去查找相應(yīng)的人名字,從產(chǎn)品介紹材料中抽取產(chǎn)品實體,從客服信息中提取 意義一致,但表述不一致的實體,如客戶投訴信息中“信號不好”、“信號差”、“經(jīng)常掉線”等表達的是同一信息 頻繁模式搜索 抽取頻繁出現(xiàn)的模式,基于頻繁出現(xiàn)模式構(gòu)建字典, 如從流失客戶的客服記錄中提取“信號差”、“費用高”、“服務(wù)不及時”等文本,以及這些頻繁出現(xiàn)的模式之間的關(guān)聯(lián) 復(fù)雜的方法 Advanced 自然語言處理 Natural Language Processing,機器學(xué)習(xí) Machine learning,統(tǒng)計方法Statistical approaches 文本數(shù)據(jù)分析引擎 非結(jié)構(gòu)化數(shù)據(jù) 結(jié)構(gòu)化 數(shù)據(jù) 詞頻統(tǒng)計 規(guī)則查詢 字典查找 文本挖掘 其他文本數(shù)據(jù) 結(jié)構(gòu)化 數(shù)據(jù) 分析數(shù)據(jù) UIMA是一個開放的,面向行業(yè)的 ,可擴展的文本分析開放平臺 , 用于構(gòu)建 /集成 /發(fā)布文本分析應(yīng)用 . UIMA是一個免費的平臺, InfoSphere Warehouse中采用 UIMA來進行實現(xiàn)文本分析中的信息抽取 為集成的文本分析模塊定義一個通用的接口 ,使得不同分析方案和企業(yè)應(yīng)用之間協(xié)同工作 提供 文本分析的 SDK ,用于構(gòu)建,組織文本分析應(yīng)用 , 利用現(xiàn)有的分析組件,開發(fā)新的,可重用的文本分析組件 UIMA: 一個新的內(nèi)容處理和分析的標(biāo)準(zhǔn) Unstructured Information Management Architecture IBM Internal Component Repository 80+ Analysis Components and 23+ UIMA-based systems/solutions E.g., Deep and Shallow Parsing深淺解析 , Categorization歸類 , Summarization摘要 , Semantic Class Detection語義分類 , POS, English/Chinese/Japanese NE 實體解析 , Classifier Trainers分類 , Machine Translation機器翻譯 , Video and Speech Analytics視頻音頻分析 , BioInformatics生物智能分析 基于 UIMA實現(xiàn)的產(chǎn)品 Lotus Workplace, Websphere Portal Server, OmniFind IBM 基于 UIMA 上的一些研究項目 Open-Domain Question Answering (ARDA/AQUAINT) Life Sciences/BioInformatics (Joint Program with Mayo Clinic, Sloan Kettering Cancer Center) Search and Categorization (IBM websites) Machine Translation (DARPA) Multi-Lingual/Multi-Modal Search (DARPA/TALES) Automatic Content Extraction (DARPA/ACE) Knowledge Integration and Knowledgebase Population (ARDA(DTO)/NIMD) Video Analysis (ARDA(DTO)/VACE, Marvel) Standard Analysis Component Plug-in Architecture in Streaming Analytic project Customer Relationship Management UIMA in IBM , 2002年發(fā)布 文本分析輔助客戶流失預(yù)測挖掘 Volumes of structured, well-organized demographic and transactional data Volumes of unorganized, unstructured data from call-center notes Volumes of unorganized, unstructured data from call-center notes 文本分析與挖掘 1. 字典查找 2. 頻繁模式搜索 3. 正則表達式規(guī)則查找 4. 文檔分類 文本分析輔助客戶流失預(yù)測挖掘 文本分析提高客戶流失預(yù)測模型的精度 2 2. 引入文本分析后模型的 lift 值增量 1 1. 傳統(tǒng)客戶流失預(yù)測模型的 lift 值 正則表達式規(guī)則抽取 regular expression 電話號碼 (0086)21-23063185 網(wǎng)址: CIA book 數(shù)據(jù)集, 提取國家的地理數(shù)據(jù),經(jīng)緯度,面積等 正則表達式規(guī)則抽取 -規(guī)則定義 正則表達式規(guī)則抽取 -挖掘流程定義 字典查找 Dictionary lookup JK supermark公司,為了提高人員的 IT技能水平,從全球 500強企業(yè)的招聘網(wǎng)站, job description信息中提取目前最常用的 IT技能 字典查找 dictionary lookup字典定義 - C# , c#, C #, c # - C/C+, C, C+, c+, c +, C + - Database skills, Database, RBDMS, DB - DB2, DB/2, db/2, IBM DB2, IBM db2, db2 - Java, J2EE, j2ee, JSP, Java Server Pages - JavaScript, Javascript, javascript - Mac OS, MAC OS, MAC Os, Mac Os - MS SQL Server, Microsoft SQL Server - MySQL, MYSQL, MySql - Network, TCP/IP, TCP, IP, DNS - Oracle, oracle - Others OS, Solaris - Perl - PL/SQL, PL, SQL, Sql, sql - Python - Script, scripting languages, scripting, bash, ch, Ch, csh, sh, shell, tcsh - Unix/Linux, Unix, Linux, Debian, FreeBSD, GNU, gnu, GNU/Linux, Madriva, RedHat,AIX - Visual Basic, VB, VisualBasic - Web Services, SOA, WSDL, CORBA, SOAP - Web skills, Ajax, ajax, ASP, asp, html, HTML, php, PHP, XML, XSLT - Windows 字典查找 dictionary lookup挖掘流程構(gòu)建 37 年齡 性別 疼痛類型 血壓 膽固醇 心電圖 心率 是否絞痛 疾病史 不良習(xí)慣 家族史 完整的例子:貝葉斯 /文本分析輔助病人心臟病診斷 38 Volumes of structured, well-organized demographic and transactional data 來自于電子病歷中的非結(jié)構(gòu)化的數(shù)據(jù) 3-5年吸煙史,過度飲酒 缺乏鍛煉,輕微肥胖 呼吸急促,曾經(jīng)有過糖尿病 其他不良習(xí)慣 。 。 。 貝葉斯 /文本分析輔助病人心臟病診斷 語義文本分析方法 : 1. 語義分析 2. 頻繁模式搜索 3. 字典查找 貝葉斯 /文本分析輔助病人心臟病診斷 文本分析輔助數(shù)據(jù)挖掘 頻繁模式查找 Smokes and smokes for the keyword smoke 語義分析 obesity, adiposity, adiposeness and alimentary obesity 文本分析輔助數(shù)據(jù)挖掘 構(gòu)建字典 文本分析輔助數(shù)據(jù)挖掘 字典查找 構(gòu)建挖掘模型 采用文本分析后的模型精度比較 基于文本挖掘結(jié)果的關(guān)聯(lián)規(guī)則挖掘 highlighted factor physical inactivity increases the mortality risk by 1.82 or 82%. Furthermore, you learn that the factor was found with 23.75% of the patients, and 78.08% of these patients actually died. 分析結(jié)果在 Cognos中的展現(xiàn) -心臟病風(fēng)險報告 根據(jù)分析結(jié)果,確定是否需要做進一步的診療 數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?挖掘 -技術(shù) or藝術(shù) ? 方法論 數(shù)據(jù)挖掘方法論 實際工程中指導(dǎo)項目實施的方法 每一階段的目標(biāo)、采用方法、輸出結(jié)果形式 人員安排、方法、時間進度安排等 實施數(shù)據(jù)挖掘方法論所要達到的目的 針對不同行業(yè)的數(shù)據(jù)挖掘方法論是挖掘項目開展的標(biāo)準(zhǔn)和指南指南 控制數(shù)據(jù)挖掘工程項目中的風(fēng)險,確保項目的成功實施,提供了保障 CRISP-DM 方法論 SEMMA 數(shù)據(jù)挖掘方法論 目前業(yè)界公認的兩種方法論: /polls/2004/data_mining_methodology.htm kdnuggets數(shù)據(jù)挖掘方法論的問卷調(diào)查: 數(shù)據(jù)挖掘方法論 Fayyad 的數(shù)據(jù)挖掘多階段處理過程模型 數(shù)據(jù)挖掘方法論 由 SPSS、 NCR、 Daimler-Benz在 1996年制定 CRISP-DM是當(dāng)今數(shù)據(jù)挖掘業(yè)界通用流行的標(biāo)準(zhǔn)之一 它強調(diào)數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用,解決商業(yè)中存在的問題,而不是 把數(shù)據(jù)挖掘局限在研究領(lǐng)域 CRISP-DM(CRoss-Industry Standard Process Data Mining) Chapman,1996 數(shù)據(jù)挖掘方法論 Data Understanding Data Preparation Modelling Data Data Data Business Understanding Deployment Evaluation Data Unde standing Data Preparation Mode ing Deployment Evaluation usinessUnderstanding NCR,ISL, Daimler-Benz, OHRA CRISP-DM CRoss-Industry Standard Process-Data Mining 數(shù)據(jù)挖掘方法論 SEMMA數(shù)據(jù)挖掘系統(tǒng)模型 SAS,1998 Sample-數(shù)據(jù)取樣 Explore-數(shù)據(jù)特征探索、分析和預(yù)處理 Modify-數(shù)據(jù)調(diào)整和技術(shù)選擇 Model-模型的研發(fā)和知識的發(fā)現(xiàn) Assess-模型和知識的綜合解釋和評價 數(shù)據(jù)挖掘方法論 數(shù)據(jù)挖掘方法論 IBM 閉環(huán)數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 選擇的 數(shù)據(jù) 選擇 轉(zhuǎn)換 挖掘 理解 轉(zhuǎn)換后的數(shù)據(jù) 可理解的信息 抽取的信息 一個過程,從大型數(shù)據(jù)庫中抽取以前沒有發(fā)現(xiàn),可理解的,可操作的信息,用以支持企業(yè)關(guān)鍵性決策。 數(shù)據(jù)挖掘 -技術(shù) or 藝術(shù) 算法及其展望 常見的挖掘算法 Y軸X 軸過擬合 局部極值 孤立點影響 局部極值 過擬合 欠學(xué)習(xí) “維度災(zāi)難“ “黑箱模型” 傳統(tǒng)的數(shù)據(jù)挖掘方法面臨的挑戰(zhàn) 傳統(tǒng)算法的弊端的根源: 傳統(tǒng)的數(shù)據(jù)挖掘算法都是以經(jīng)典統(tǒng)計學(xué)中的大數(shù)定理為基礎(chǔ),算法的結(jié)論都是在訓(xùn)練樣本趨于無窮的假設(shè)下得到的 , 然而在實際中訓(xùn)練樣本總是有限。 傳統(tǒng)的算法 (如神經(jīng)網(wǎng)絡(luò)等)往往會出現(xiàn)如下弊端: 過擬合用一個復(fù)雜的模型代表一個簡單的規(guī)律; 局部極值得到的結(jié)果不是全局最優(yōu); 推廣能力差訓(xùn)練時效果好,預(yù)測時精度差; Support Vector Machine,最早由 Vapnik教授 1995年提出,最初用于求解兩類樣本的最優(yōu)分類面;后被應(yīng)用與分類、回歸、聚類等數(shù)據(jù)挖掘領(lǐng)域。 同時控制模型的結(jié)構(gòu)風(fēng)險(復(fù)雜度)和經(jīng)驗風(fēng)險(準(zhǔn)確度),避免過學(xué)習(xí)。 211m i n | | | |2s . t . ( ) 1 , 1 , 2 , . . . , .li ii i iCy b i l wwx結(jié)構(gòu)風(fēng)險 經(jīng)驗風(fēng)險 兩類樣本最優(yōu)分類 面 數(shù)據(jù)挖掘中的新方法 SVM具有以下獨有的特點: 解決局部極值問題求解二次優(yōu)化,得到全局最優(yōu)解, 解決非線性難題將復(fù)雜的非線性問題轉(zhuǎn)變?yōu)榫€性求解; 解決小樣本學(xué)習(xí)難題基于小樣本統(tǒng)計學(xué)習(xí)理論; 解決海量數(shù)據(jù)難題理論上復(fù)雜度與樣本維數(shù)無關(guān); 解決欠學(xué)習(xí)、過學(xué)習(xí)難題同時優(yōu)化算法復(fù)雜性和學(xué)習(xí)精度; 堅實的數(shù)學(xué)基礎(chǔ), 良好的推廣能力, 處理海量數(shù)據(jù)的高效率, 非常適合用于海量數(shù)據(jù)挖掘中, 數(shù)據(jù)挖掘中一個熱點。 數(shù)據(jù)挖掘中的新方法 兩個有價值的方向: SVM聚類、 SVM規(guī)則挖掘。 用于發(fā)現(xiàn)任意空間分布形狀的類別 自動決定類別數(shù) 高維數(shù)據(jù)的高速聚類 避免類別之間相互重疊 數(shù)據(jù)挖掘中的新方法 SVM聚類 SVM關(guān)聯(lián)規(guī)則挖掘 消除孤立點對關(guān)聯(lián)規(guī)則的影響 處理海量數(shù)據(jù)非常有效 數(shù)據(jù)挖掘中的新方法 核系列方法 (Kernel methods):傳統(tǒng)的方法是將高維的問題映射到低維的空間,但是Kernel method,剛好相反。 事實上 SVM就是 kernel method中的一種,還有很多種核方法 核主元分析 Kernel PCA-用于數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理中; 核邏輯回歸 Kernel Logistic Regression-用于海量數(shù)據(jù)的回歸分析 核聚類分析 Kernel clustering; 核(偏)最小二乘 Kernel Least Squares . 數(shù)據(jù)挖掘中的新方法 但一切不是絕對的! 數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) ? 挖掘調(diào)優(yōu) 數(shù)據(jù)挖掘項目的調(diào)優(yōu) 數(shù)據(jù)挖掘項目的成功需要不斷地優(yōu)化挖掘流程 營銷流程調(diào)優(yōu) 挖掘建模流程調(diào)優(yōu) 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 數(shù)據(jù)挖掘項目的調(diào)優(yōu) 營銷流程的調(diào)優(yōu) 目標(biāo)客戶群的調(diào)整 套餐定價 /組合的更改 更改營銷渠道與流程 根據(jù)不同生活習(xí)慣的人群選擇外呼的時段 挖掘建模流程調(diào)優(yōu) 挖掘建模數(shù)據(jù)集的劃分 合理的數(shù)據(jù)采樣、分層采樣、隨即采樣、順序采樣,處理小概率事件 訓(xùn)練集、測試集、校驗集合 模型訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)采用相同的尺度變換 挖掘建模流程調(diào)優(yōu) 算法調(diào)優(yōu) 根據(jù)數(shù)據(jù)分布特性選擇不同的算法 避免盲目追求算法精度、選擇合適學(xué)習(xí)率、避免模型過擬合 模型校驗集用于最大化模型泛化能力 不平衡樣本的算法及類別權(quán)值確定,必要時改變挖掘模式 挖掘建模流程調(diào)優(yōu) 兩個定理 “奧卡姆剃刀”定理簡單就是最好的 “沒有免費午餐”定理,“丑小鴨”定理 沒有一種算法會在任何方面都占優(yōu) 分群過程中的建模流程調(diào)優(yōu) 群體數(shù)目確定 群體數(shù)目奇數(shù)為佳,一般為 5-9個左右,加減 2進行調(diào)整 如需減少群體數(shù)目,加入總量變量,減少分量變量,減少相似度閾值 增加群體數(shù)目,減少總量變量,增加分量變量,加大相似度閾值 如果某類包含個體數(shù)量超過 50,考慮進行迭代分群 分群過程中的建模流程調(diào)優(yōu) 輸入變量的調(diào)整 變量取值大部分為 0或其他固定值的變量不建議使用 多個聰明變量之間相互重疊導(dǎo)致類別相互重疊時,增加變量個數(shù) 排除業(yè)務(wù)上有重疊的變量,如夜間通話時長和打折時段通話時長 分群過程中的建模流程調(diào)優(yōu) 算法調(diào)優(yōu) K-Means 孤立點敏感、群體重疊、差別大時效果差;局部最優(yōu);可擴展性好,大數(shù)據(jù)集 Kohonan 結(jié)果對樣本次序有關(guān)、初始參數(shù)值的選擇 DBSCAN 可以發(fā)現(xiàn)任意形狀邊界,處理孤立點、需要更多的內(nèi)存、 I/O消耗 Distribution-Based Cluster 可以自動發(fā)現(xiàn)群體個數(shù),孤立點不敏感 Neural Cluster 有時候會陷入局部最優(yōu)解 SVC可以自動確定群體個數(shù),任意形狀邊界群,復(fù)雜性和字段數(shù)無關(guān) 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 數(shù)據(jù)調(diào)優(yōu)增加數(shù)據(jù)質(zhì)量 數(shù)據(jù)探索:發(fā)現(xiàn)數(shù)據(jù)中的異常點,了解數(shù)據(jù)分別模式 處理缺失值,屬性變換,離散值變連續(xù)值 解決數(shù)據(jù)分布不一致的問題, 0-1變換、 Z變換 從業(yè)務(wù)角度看,無意義的變量不建議做挖掘模型的輸入變量 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 變量之間的相關(guān)性 發(fā)現(xiàn)輸入樣本的變量之間的相關(guān)性 變量之間耦合性強的變量不建議選取 數(shù)據(jù)準(zhǔn)備流程調(diào)優(yōu) 設(shè)計派生變量 盡量反映動態(tài)的特性,加入時長、趨勢、占比、集中度 派生變量要適當(dāng),總量和分量、占比變量不宜同時出現(xiàn) 1 取景(尋找業(yè)務(wù)問題尋找業(yè)務(wù)增長空間) 2 構(gòu)建畫面的背景(定義業(yè)務(wù)問題) 4 根據(jù)天氣和光線的情況調(diào)整曝光程度等(調(diào)整建模方法和參數(shù)) 5 沖洗選擇一張最佳的照片(選擇一個最佳的模型) 6 后期美化處理(業(yè)務(wù)含義解釋和建議) 7 裝裱起來,掛在該掛的位置例如床邊,書桌或者客廳什么的(模 型部署,用于改善實際的業(yè)務(wù)) 數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) 數(shù)據(jù)挖掘 -技術(shù) or藝術(shù) 更多的參考: (關(guān)于 PMML) (關(guān)于 CRISP-DM) /sigs/sigkdd(關(guān)于 KDD) (數(shù)據(jù)挖掘論壇) (Kernel Method與 SVM) 數(shù)據(jù)挖掘技巧 會找:發(fā)現(xiàn)問題,以及解決問題的數(shù)據(jù)挖掘方法 會用:處理數(shù)據(jù),操作軟件 會說:對挖掘結(jié)果給出解釋分析 會試:需要不斷的調(diào)優(yōu),改進挖掘效果 電信數(shù)據(jù)挖掘應(yīng)用 電信運營商面臨巨大客戶群,每個客戶需求不一樣; “ 一對一 ” 營銷模式; 最大化組間差異性,最小化組內(nèi)差異性; 了解客戶的構(gòu)成,發(fā)現(xiàn)客戶的需求,提高營銷的針對性。 客戶分群 客戶流失預(yù)測模型 客戶流失預(yù)測背景 客戶流失率高, 移動每月 2.2%, 每年損失將近 27客戶; 吸引新客戶成本高,吸引新客戶 /保留現(xiàn)有客戶 6-8倍。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 班級科技活動組織與引導(dǎo)計劃
- 社團發(fā)展戰(zhàn)略計劃
- 可持續(xù)發(fā)展與財務(wù)規(guī)劃計劃
- 小兒輔食知識培訓(xùn)課件
- 企業(yè)戰(zhàn)略控制概述
- 簡單的護理查房
- 靜脈輸血護理查房
- 鋰電池安全知識培訓(xùn)課件
- 第十單元實驗活動6:酸、堿的化學(xué)性質(zhì)教學(xué)設(shè)計-2023-2024學(xué)年九年級化學(xué)人教版下冊
- 腰椎穿刺患者術(shù)后護理
- 三年級數(shù)學(xué)下冊蘇教版《解決問題的策略-從問題想起》課件(區(qū)級公開課)
- ad-hoc第二章-ad-hoc網(wǎng)絡(luò)中的MAC協(xié)議
- 建筑工程施工質(zhì)量控制PPT課件
- 心性修煉與教育智慧
- 二手房買賣合同正式版空白
- 西方企業(yè)組織變革理論綜述
- 結(jié)構(gòu)力學(xué)中必須掌握的彎矩圖
- 氫化物(蒸氣)發(fā)生-原子熒光講義
- 國家二字碼大全--253個國家
- (完整版)螺旋鉆孔灌注樁施工工藝
- 公務(wù)接待制度公務(wù)接待審批單公務(wù)接待清單
評論
0/150
提交評論