大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第1頁
大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第2頁
大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第3頁
大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第4頁
大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第1章緒論第2章數(shù)據(jù)分析與可視化技術(shù)第3章認(rèn)識數(shù)據(jù)第4章數(shù)據(jù)預(yù)處理第5章分類概念與方法第6章關(guān)聯(lián)分析概念與方法第7章聚類分析概念與方法第8章大數(shù)據(jù)挖掘關(guān)鍵技術(shù)第9章案例分析第1章緒論大數(shù)據(jù)挖掘?qū)д撆c案例學(xué)習(xí)目標(biāo)/Target了解大數(shù)據(jù)的概念與特征,了解大數(shù)據(jù)挖掘的過程模型了解大數(shù)據(jù)挖掘的工具與技術(shù),了解大數(shù)據(jù)挖掘的應(yīng)用了解數(shù)據(jù)科學(xué)的產(chǎn)生與興起,了解數(shù)據(jù)科學(xué)工作者應(yīng)具備的基礎(chǔ)和技能引言/Introduction國際權(quán)威機構(gòu)Statista的統(tǒng)計和預(yù)測顯示,2019年全球數(shù)據(jù)量達(dá)到41ZB,2020年達(dá)到47ZB,2025則增長到175ZB,而到2035年,這一數(shù)字將達(dá)到2142ZB。大數(shù)據(jù)已持續(xù)引起人們生活、工作和思維模式的大變革。人們的注意力已轉(zhuǎn)移到尋找大數(shù)據(jù)使用的真正價值上。數(shù)據(jù)的爆炸式增長,對數(shù)據(jù)技術(shù)提出了更高的要求。目錄/Contents010203數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家大數(shù)據(jù)的概念和特征大數(shù)據(jù)的主要來源0405大數(shù)據(jù)挖掘的概念和流程數(shù)據(jù)挖掘的主要任務(wù)目錄/Contents0607大數(shù)據(jù)挖掘的工具與技術(shù)大數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.11.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1962年,美國數(shù)學(xué)家JohnW.Tukey在《數(shù)理統(tǒng)計年鑒》上發(fā)表題為“數(shù)據(jù)分析的未來”的論文,為未來數(shù)據(jù)科學(xué)的發(fā)展奠定了基礎(chǔ)。1966年,丹麥計算機科學(xué)家PeterNaur發(fā)明了“數(shù)據(jù)學(xué)(Datalogy)”。1974年出版《計算機方法簡明概述》,首次使用“數(shù)據(jù)科學(xué)”一詞,將數(shù)據(jù)科學(xué)定義為“處理數(shù)據(jù)的科學(xué)”。1977年,JohnW.Tukey出版著作《探索性數(shù)據(jù)分析》,提出:探索性數(shù)據(jù)分析和論證性數(shù)據(jù)分析能夠且應(yīng)該并駕齊驅(qū)。1989年,GregoryPiatetsky-Shapiro提出“知識發(fā)現(xiàn)”和“數(shù)據(jù)挖掘”,組織并主持了第一屆“數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases,KDD)”研討會。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1991年,Piatetsky-Shapiro和Frawley等人出版論文合集《數(shù)據(jù)庫中的知識發(fā)現(xiàn)》。1993年,JohnChambers發(fā)表了題為“GreaterorLesserStatistics:AChoiceforFutureResearch”的論文,呼吁統(tǒng)計學(xué)領(lǐng)域?qū)鹘y(tǒng)統(tǒng)計學(xué)進行改革。文中指出傳統(tǒng)統(tǒng)計學(xué)在未來的研究中將面臨兩種選擇:(1)“更專有(Lesser)”。以數(shù)學(xué)技巧為主導(dǎo),專注于傳統(tǒng)課題和數(shù)學(xué)本身,以學(xué)術(shù)研究為主,與其他相關(guān)學(xué)科交流較少;(2)“更包容”(Greater)。從數(shù)據(jù)中學(xué)習(xí),兼收并蓄,以應(yīng)用為主,與其他相關(guān)學(xué)科交流頻繁。Chambers指出更包容雖然充滿挑戰(zhàn),但會帶來更多的機遇;而更專有則有可能使傳統(tǒng)統(tǒng)計學(xué)研究變得越來越邊緣化。Chambers呼吁要打破傳統(tǒng)統(tǒng)計學(xué)的邊界,更多地專注于數(shù)據(jù)本身,正視數(shù)據(jù)分析本質(zhì)上是一種基于經(jīng)驗的科學(xué)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1989年至1994年召開4次KDD國際研討會。1995年,數(shù)據(jù)挖掘界舉辦第一屆“知識發(fā)現(xiàn)與數(shù)據(jù)挖掘”國際學(xué)術(shù)會議。1996年,國際分類協(xié)會聯(lián)盟在日本神戶召開的第5次國際會議上,首次正式使用“數(shù)據(jù)科學(xué)”術(shù)語,并將其納入會議標(biāo)題。會后出版會議論文選集《數(shù)據(jù)科學(xué),分類和相關(guān)方法》,涵蓋了不斷發(fā)展的數(shù)據(jù)科學(xué)領(lǐng)域中出現(xiàn)的廣泛主題和觀點,包括與數(shù)據(jù)收集、分類、聚類、探索性和多元數(shù)據(jù)分析,以及發(fā)現(xiàn)和尋求知識有關(guān)的領(lǐng)域的理論和方法方面的進步。同年,UsamaM.Fayyad、GregoryPiatetsky-Shapiro、PadhraicSmyth和RamasamyUthurusamy出版《知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的進展》,匯集了知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的研究成果。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1997年,應(yīng)用統(tǒng)計學(xué)家C.F.JeffWu在“統(tǒng)計學(xué)=數(shù)據(jù)科學(xué)?(Statistics=DataScience?)”的演講中,將當(dāng)時定義的“統(tǒng)計學(xué)工作內(nèi)容”描述為:數(shù)據(jù)收集、數(shù)據(jù)建模與分析、洞察與決策三部曲,并提出了他對未來統(tǒng)計學(xué)發(fā)展方向的展望,呼吁將統(tǒng)計學(xué)重新命名為數(shù)據(jù)科學(xué)。1998年,ACM-SIGKDD成立,1999年以來一直組織SIGKDD國際會議。目前,SIGKDD是數(shù)據(jù)挖掘研究領(lǐng)域的頂級會議。2001年,美國統(tǒng)計學(xué)教授WilliamS.Cleveland在《國際統(tǒng)計評論》上發(fā)表文章“數(shù)據(jù)科學(xué):一種拓展統(tǒng)計學(xué)技術(shù)領(lǐng)域的行動”,首次將數(shù)據(jù)科學(xué)作為一個單獨的學(xué)科,并把數(shù)據(jù)科學(xué)定義為統(tǒng)計學(xué)領(lǐng)域擴展到以數(shù)據(jù)作為研究對象,與信息和計算機科學(xué)技術(shù)相結(jié)合的學(xué)科,奠定了數(shù)據(jù)科學(xué)的理論基礎(chǔ)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2002年,數(shù)據(jù)科學(xué)與技術(shù)委員會(CODATA)創(chuàng)辦了《數(shù)據(jù)科學(xué)期刊》,聚焦于數(shù)據(jù)系統(tǒng)描述及其網(wǎng)絡(luò)出版物、應(yīng)用和法律問題等。2003年,哥倫比亞大學(xué)創(chuàng)辦《數(shù)據(jù)科學(xué)期刊》,為致力于統(tǒng)計學(xué)方法應(yīng)用和定量研究的數(shù)據(jù)工作者提供發(fā)表意見和交流思想的平臺。2007年,圖靈獎獲得者JimGray在NRC-CSTB的會議上,發(fā)表了著名演講——“科學(xué)方法的一次變革”,他將數(shù)據(jù)科學(xué)視為科學(xué)的“第四范式”。認(rèn)為:人類科學(xué)研究活動已經(jīng)經(jīng)歷過三種不同范式,分別是描述自然現(xiàn)象的“實驗科學(xué)”、以模型和歸納為特征的“理論科學(xué)”和以模擬與仿真為特征的“計算科學(xué)”,而且科學(xué)探索正在從“計算科學(xué)”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)”,即第四范式(也稱為eScience)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2008年,建立LinkedIn數(shù)據(jù)團隊的主管DhanurjayPatil和領(lǐng)導(dǎo)Facebook數(shù)據(jù)團隊的JeffHammerbacher提出了“數(shù)據(jù)科學(xué)家”術(shù)語。2009年,數(shù)據(jù)科學(xué)家MikeDriscoll在題為“數(shù)據(jù)極客的三項迷人技能”的文章中,闡述了數(shù)據(jù)科學(xué)家的重要性。2009年,微軟研究院副總裁Tony

Hey為已故JimGray發(fā)行了以數(shù)據(jù)科學(xué)為主題的論文集《第四范式:數(shù)據(jù)密集型發(fā)現(xiàn)》。2010年,DrewConway提出數(shù)據(jù)科學(xué)維恩圖,首次探討數(shù)據(jù)科學(xué)的學(xué)科定位問題。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2013年,美國計算機科學(xué)家ChrisA.Mattmann在《自然》發(fā)表題為“計算——數(shù)據(jù)科學(xué)的愿景”的評論文章,針對大數(shù)據(jù)進行了具體闡述(未區(qū)分?jǐn)?shù)據(jù)科學(xué)與大數(shù)據(jù)),解釋了大數(shù)據(jù)的復(fù)雜性和挑戰(zhàn),且認(rèn)為需要同時熟悉數(shù)據(jù)科學(xué)和先進計算技術(shù)的數(shù)據(jù)科學(xué)家。2013年,紐約大學(xué)VasantDhar教授在《美國計算機學(xué)會通訊》上發(fā)表題為“數(shù)據(jù)科學(xué)與預(yù)測”的論文,認(rèn)為數(shù)據(jù)科學(xué)不同于統(tǒng)計和其他現(xiàn)有學(xué)科。同時提出了3個主要觀點:(1)數(shù)據(jù)科學(xué)是從數(shù)據(jù)中歸納提取知識的研究;(2)評估新知識是否可用于決策的一個共同要求是其預(yù)測能力,而不僅僅是其解釋過去的能力;(3)數(shù)據(jù)科學(xué)家需要涵蓋數(shù)學(xué)、機器學(xué)習(xí)、統(tǒng)計學(xué)、計算機科學(xué)的綜合技能,并且具有對提出問題技巧的深刻理解并設(shè)計出有效的解決方案的能力。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2013年,紐約大學(xué)FosterProvost與TomFawcett在《大數(shù)據(jù)》上發(fā)表題為“數(shù)據(jù)科學(xué)及其與大數(shù)據(jù)和數(shù)據(jù)驅(qū)動決策的關(guān)系”的論文,將數(shù)據(jù)科學(xué)定性為數(shù)據(jù)工程和處理技術(shù)與“數(shù)據(jù)驅(qū)動的決策”之間的接口。對數(shù)據(jù)科學(xué)這樣定義:“從較高層次上講,數(shù)據(jù)科學(xué)是一組基本原理,它們支持并指導(dǎo)從數(shù)據(jù)中提取信息和知識的原則。與數(shù)據(jù)科學(xué)最密切相關(guān)的概念可能是數(shù)據(jù)挖掘,即通過結(jié)合這些原理的技術(shù)從數(shù)據(jù)中實際提取知識”。數(shù)據(jù)科學(xué)的三個標(biāo)志性事件:(1)DhanurjayPatil和ThomasH.Davenport2012年在《哈佛商業(yè)評論》發(fā)表題為“數(shù)據(jù)科學(xué)家——21世紀(jì)最有魅力的職業(yè);(2)2012年大數(shù)據(jù)思維被首次應(yīng)用于美國總統(tǒng)大選,奧巴馬成功連任;(3)白宮2015年首次設(shè)立數(shù)據(jù)科學(xué)家崗位,聘請DhanurjayPatil作為白宮第一任首席數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)的技術(shù)成長逐步走向穩(wěn)定上升期。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)是一個廣泛領(lǐng)域,涉及數(shù)據(jù)的收集、存儲、處理、分析和解釋等。數(shù)據(jù)科學(xué)家利用數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)和領(lǐng)域知識等多個學(xué)科的方法和技術(shù)來處理和分析數(shù)據(jù),以提取有價值的信息和洞察力。數(shù)據(jù)挖掘是數(shù)據(jù)科學(xué)的一個重要組成部分,它提供探索和分析大規(guī)模數(shù)據(jù)集的工具和技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)聯(lián),從而提供洞察力和價值。數(shù)據(jù)科學(xué)家可以使用數(shù)據(jù)挖掘技術(shù)來解決實際問題,提取有用的信息,支持決策制定過程。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)與其他學(xué)科不同:思維模式的轉(zhuǎn)變,對數(shù)據(jù)認(rèn)識的變化,指導(dǎo)思想的變化,以數(shù)據(jù)產(chǎn)品開發(fā)為主要目的等。數(shù)據(jù)科學(xué)通過系統(tǒng)研究和分析不同數(shù)據(jù)源,理解數(shù)據(jù)含義,運用數(shù)據(jù)作為工具實現(xiàn)有效的決策制定和問題求解。數(shù)據(jù)科學(xué)的目的是促進與數(shù)據(jù)相關(guān)的各種流程的應(yīng)用(例如數(shù)據(jù)獲取、清洗噪聲的數(shù)據(jù)預(yù)處理、數(shù)據(jù)表示、數(shù)據(jù)評估、數(shù)據(jù)分析),以及數(shù)據(jù)創(chuàng)建相關(guān)知識的運用。數(shù)據(jù)科學(xué)的目標(biāo)是發(fā)現(xiàn)知識,以幫助個人、組織機構(gòu)乃至全球?qū)用嫔线M行科學(xué)決策。數(shù)據(jù)科學(xué)領(lǐng)域必然通過分析網(wǎng)絡(luò)日志、傳感器系統(tǒng)、事務(wù)數(shù)據(jù)生成的大數(shù)據(jù),產(chǎn)生有效的洞察并派生出新數(shù)據(jù)產(chǎn)品。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)涉及數(shù)據(jù)的收集、存儲、處理、分析和解釋等方面。數(shù)據(jù)科學(xué)家利用數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)和領(lǐng)域知識等多個學(xué)科的方法和技術(shù)來處理和分析數(shù)據(jù),以從中提取有價值的信息和洞察。數(shù)據(jù)挖掘是數(shù)據(jù)科學(xué)的重要組成部分,為數(shù)據(jù)科學(xué)家提供探索和分析大規(guī)模數(shù)據(jù)集的工具和技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)聯(lián)。數(shù)據(jù)科學(xué)家使用數(shù)據(jù)挖掘技術(shù)解決實際問題,提取有用的信息,支持決策過程。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.2從事數(shù)據(jù)科學(xué)活動的重要基礎(chǔ)和技能數(shù)據(jù)科學(xué)的基礎(chǔ)來自三方面:推理思維,計算思維和現(xiàn)實世界中事物之間的相關(guān)性。數(shù)據(jù)科學(xué)通過探索、預(yù)測和推理從龐大且多樣化的數(shù)據(jù)集中得出有用結(jié)論。探索涉及識別信息模式,主要工具是可視化和描述性統(tǒng)計;預(yù)測涉及使用已知信息對希望知道的值進行明智的猜測,主要工具是機器學(xué)習(xí)和優(yōu)化;推理涉及量化預(yù)測的確定性程度,主要工具是統(tǒng)計檢驗和模型。數(shù)據(jù)科學(xué)要求從業(yè)者具備傳統(tǒng)科學(xué)中的理論知識與實踐能力,還要具有數(shù)據(jù)科學(xué)家的3C精神——原創(chuàng)性(Creative)設(shè)計、批判性(Critical)思考和好奇性(Curious)的提問能力。數(shù)據(jù)科學(xué)家必須具備的重要技能:(1)計算機能力;(2)數(shù)學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)挖掘能力。(3)數(shù)據(jù)可視化能力。(4)一些軟技能,例如,團隊精神,溝通、交流能力,業(yè)務(wù)敏銳性,組織和解決問題的能力等。從事數(shù)據(jù)科學(xué)的基礎(chǔ)與數(shù)據(jù)科學(xué)家的技能大數(shù)據(jù)的概念、發(fā)展階段和特征1.21.2.1大數(shù)據(jù)的概念大數(shù)據(jù)的定義很多,下面是幾個具有代表性的定義。O'ReillyMedia的定義:大數(shù)據(jù)是超出傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。數(shù)據(jù)量太大,數(shù)據(jù)移動太快或數(shù)據(jù)不符合傳統(tǒng)數(shù)據(jù)庫體系結(jié)構(gòu)的嚴(yán)格要求。為了從這些數(shù)據(jù)中獲取價值,必須選擇一種替代方法來處理它。Gartner給出的大數(shù)據(jù)定義:大數(shù)據(jù)是大容量、高速度和/或多種類型的信息資產(chǎn),它們需要經(jīng)濟高效、創(chuàng)新的信息處理形式,以增強洞察力、決策能力和流程自動化McKinsey對大數(shù)據(jù)的定義:大數(shù)據(jù)是指其規(guī)模超出典型數(shù)據(jù)庫軟件工具捕獲、存儲、管理和分析能力的數(shù)據(jù)集。綜上,大數(shù)據(jù)是指規(guī)模巨大、復(fù)雜度高并且難以使用傳統(tǒng)數(shù)據(jù)處理工具捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)的定義1.2.2大數(shù)據(jù)的發(fā)展階段大數(shù)據(jù)的發(fā)展可分為以下三個階段:第一階段:數(shù)據(jù)分析源于數(shù)據(jù)庫管理,依賴關(guān)系數(shù)據(jù)庫管理系統(tǒng)中常見的對數(shù)據(jù)的存儲、提取和優(yōu)化技術(shù)。數(shù)據(jù)庫管理和數(shù)據(jù)倉庫是此階段的核心組成部分。所使用的數(shù)據(jù)庫查詢、在線分析處理和標(biāo)準(zhǔn)報告等為現(xiàn)代數(shù)據(jù)分析奠定了基礎(chǔ)。第二階段:網(wǎng)絡(luò)提供獨特的數(shù)據(jù)收集和數(shù)據(jù)分析機會。網(wǎng)絡(luò)流量和在線商店的擴大,Yahoo!、Amazon和eBay等公司開始通過分析點擊率、特定IP的位置數(shù)據(jù)和搜索日志來分析客戶行為。社交媒體引起大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的增長。極大增強了從半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中提取有意義信息的工具、技術(shù)和分析方法的需求。第三階段:基于Web的非結(jié)構(gòu)化數(shù)據(jù)仍然是許多機構(gòu)在大數(shù)據(jù)和數(shù)據(jù)分析方面的主要關(guān)注點。隨著移動設(shè)備的興起,從移動設(shè)備中發(fā)現(xiàn)了檢索有價值信息的可能性,從新數(shù)據(jù)源中提取有有價值信息的競賽開始。大數(shù)據(jù)的發(fā)展1.2.3大數(shù)據(jù)的5V特征1.容量(Volume)指數(shù)據(jù)的大小或體量。數(shù)據(jù)的大小決定數(shù)據(jù)的價值和潛在的洞察力,以及是否可以將其視為大數(shù)據(jù)。大數(shù)據(jù)所面臨的挑戰(zhàn):存儲,以及如何識別海量數(shù)據(jù)集中的相關(guān)數(shù)據(jù)并很好地利用它們。2.速度(Velocity)指數(shù)據(jù)生成和移動的速度。數(shù)據(jù)流的速度有助于確定數(shù)據(jù)是否屬于大數(shù)據(jù)類別。大數(shù)據(jù)以越來越快的速度生成和移動,意味著數(shù)據(jù)的采集和分析等過程必須迅速、及時。3.多樣性(Variety)指大數(shù)據(jù)包括多種不同格式和不同類型的數(shù)據(jù)。根據(jù)數(shù)據(jù)是否具有一定的模式、結(jié)構(gòu)和關(guān)系,可將數(shù)據(jù)分為三種基本類型:結(jié)構(gòu)化數(shù)據(jù):具有固定的數(shù)據(jù)模式,是一種有組織的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù):另一種形式的結(jié)構(gòu)化數(shù)據(jù),具有一定的結(jié)構(gòu)化特征,但是結(jié)構(gòu)變化大,且不遵循表格數(shù)據(jù)模型或關(guān)系數(shù)據(jù)庫的格式。非結(jié)構(gòu)化數(shù)據(jù):不遵循固定的結(jié)構(gòu)或模式,是非組織化數(shù)據(jù),不適于用二維表表示。大數(shù)據(jù)5V特征1.2.3大數(shù)據(jù)的5V特征4.真實性(Veracity)真實性也稱為準(zhǔn)確性,是數(shù)據(jù)質(zhì)量和完整性、準(zhǔn)確度及可信度的保證。許多形式的大數(shù)據(jù)的真實性很難控制,因為數(shù)據(jù)中會存在噪聲和異常,也會存在不一致性和不確定性。由于數(shù)據(jù)往往是從多個來源收集的,因此在將其用于業(yè)務(wù)洞察之前,需要檢查其真實性。5.價值(Value)價值是大數(shù)據(jù)最重要的特征。作為物理符號的數(shù)據(jù)本身沒有用處,只有在它被轉(zhuǎn)化為有用信息時才能體現(xiàn)其價值,該價值表現(xiàn)為對決策的支持作用。大數(shù)據(jù)幾乎可以在任何商業(yè)或社會領(lǐng)域提供價值。

隨著數(shù)據(jù)量的增長,大數(shù)據(jù)中有意義的信息卻不是成相應(yīng)比例增長,即表現(xiàn)為低價值密度的特點。

數(shù)據(jù)挖掘是對大數(shù)據(jù)進行分析和挖掘的理論核心。大數(shù)據(jù)5V特征大數(shù)據(jù)的主要來源1.31.3大數(shù)據(jù)的主要來源少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù),如關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)倉庫。大量人產(chǎn)生的數(shù)據(jù),如微博、微信、Twitter、Facetime、通信軟件、移動通信APP、電子商務(wù)在線交易日志、企業(yè)應(yīng)用的相關(guān)評論等數(shù)據(jù)。巨量機器產(chǎn)生的數(shù)據(jù),如應(yīng)用服務(wù)器日志,以及各類傳感器、圖像和視頻監(jiān)控、二維碼和條形碼掃描等產(chǎn)生的數(shù)據(jù)。按產(chǎn)生數(shù)據(jù)的主體劃分1.3大數(shù)據(jù)的主要來源互聯(lián)網(wǎng)公司?;ヂ?lián)網(wǎng)公司產(chǎn)生的數(shù)據(jù)包括大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)。電信、金融、保險、電力、石化系統(tǒng)。公共安全、醫(yī)療、交通領(lǐng)域。氣象、地理、政務(wù)等領(lǐng)域制造業(yè)和其他傳統(tǒng)行業(yè)。按產(chǎn)生數(shù)據(jù)的行業(yè)劃分1.3大數(shù)據(jù)的主要來源系統(tǒng)日志采集。使用海量數(shù)據(jù)采集工具進行系統(tǒng)日志采集,如Hadoop的Chukwa、Cloudera的Flume等,這些工具均采用分布式架構(gòu),能滿足大數(shù)據(jù)日志數(shù)據(jù)采集和傳輸需求?;ヂ?lián)網(wǎng)數(shù)據(jù)采集。通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)。把數(shù)據(jù)從網(wǎng)頁中抽取出來,存儲為統(tǒng)一的本地數(shù)據(jù)文件。支持圖片、音頻、視頻等文件或附件的采集。APP移動端數(shù)據(jù)采集。APP是獲取用戶移動端數(shù)據(jù)的一種有效方法。APP中的SDK(軟件開發(fā)工具包)插件可以將用戶使用APP的信息匯總給指定服務(wù)器。單個APP用戶的數(shù)據(jù)量有限,在有眾多APP及其用戶情況下,能夠獲取用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)可達(dá)到數(shù)億量級。與數(shù)據(jù)服務(wù)機構(gòu)合作。數(shù)據(jù)服務(wù)機構(gòu)通常具備規(guī)范的數(shù)據(jù)共享和交易渠道??梢詮臄?shù)據(jù)服務(wù)機構(gòu)快速、明確地獲取所需要的數(shù)據(jù)。對于保密性要求較高的數(shù)據(jù)。按數(shù)據(jù)的存儲形式劃分1.3大數(shù)據(jù)的主要來源互聯(lián)網(wǎng)公司?;ヂ?lián)網(wǎng)公司產(chǎn)生的數(shù)據(jù)包括大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)。電信、金融、保險、電力、石化系統(tǒng)。公共安全、醫(yī)療、交通領(lǐng)域。氣象、地理、政務(wù)等領(lǐng)域制造業(yè)和其他傳統(tǒng)行業(yè)。按產(chǎn)生數(shù)據(jù)的行業(yè)劃分大數(shù)據(jù)挖掘的概念和流程1.41.4大數(shù)據(jù)挖掘的概念和流程數(shù)據(jù)挖掘的定義有好多種,下面給出常見的三種UsamaM.Fayyad給出的定義:數(shù)據(jù)庫中的知識發(fā)現(xiàn)是在大型數(shù)據(jù)集中識別有效的、新穎的、潛在有用的和最終可理解的模式的非平凡過程。早期,將數(shù)據(jù)挖掘看作整個知識發(fā)現(xiàn)過程的一個步驟,后來兩個術(shù)語替換使用,即數(shù)據(jù)挖掘也稱為知識發(fā)現(xiàn)。技術(shù)上的定義:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又潛在有用的信息的過程。商業(yè)角度的定義:數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是大數(shù)據(jù)挖掘和分析的基石。數(shù)據(jù)挖掘的定義1.4大數(shù)據(jù)挖掘的概念和流程大數(shù)據(jù)挖掘和分析方法決定所獲得信息是否有價值。具有普遍性的方法和理論主要包括:可視化分析。直觀且簡單明了呈現(xiàn)大數(shù)據(jù)的特點。是大數(shù)據(jù)分析的最基本要求。數(shù)據(jù)挖掘算法。各種數(shù)據(jù)挖掘算法基于不同的數(shù)據(jù)類型和格式,能夠更科學(xué)地呈現(xiàn)數(shù)據(jù)所具備的特點,且能夠深入數(shù)據(jù)內(nèi)部,快速挖掘出數(shù)據(jù)中隱藏的價值。預(yù)測性分析能力。預(yù)測性分析是大數(shù)據(jù)分析最重要的應(yīng)用。從大數(shù)據(jù)中挖掘特點并建立模型,將新數(shù)據(jù)代入模型預(yù)測未來。語義引擎。大數(shù)據(jù)分析廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)。語義引擎可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞等分析、判斷用戶需求,實現(xiàn)更好的用戶體驗和廣告匹配。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理是成功進行大數(shù)據(jù)挖掘和分析的重要保證。大數(shù)據(jù)挖掘和分析方法1.4大數(shù)據(jù)挖掘的概念和流程CRISP-DM過程模型文檔的主要內(nèi)容有5個部分:概述;CRISP-DM參考模型;CRISP-DM用戶指南;CRISP-DM報告;附錄。CRISP-DM參考模型中給出一個數(shù)據(jù)挖掘項目的生命周期由6個階段組成:商業(yè)理解(businessunderstanding)、數(shù)據(jù)理解(dataunderstanding)、數(shù)據(jù)準(zhǔn)備(datapreparation)、建模(modeling)、評估(evaluation)和部署(deployment)。各階段間的關(guān)系及流程如右圖。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型:CRISP-DM1.4大數(shù)據(jù)挖掘的概念和流程(1)商業(yè)理解。從商業(yè)角度理解項目目標(biāo)和需求,然后轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義和實現(xiàn)目標(biāo)的初步規(guī)劃。具體任務(wù):確定商業(yè)目標(biāo),評析環(huán)境,確定數(shù)據(jù)挖掘目標(biāo),制定項目計劃等。(2)數(shù)據(jù)理解。指由最初的數(shù)據(jù)收集開始的一系列活動。目的是熟悉數(shù)據(jù)、鑒別數(shù)據(jù)質(zhì)量,發(fā)現(xiàn)對數(shù)據(jù)的真知灼見,探索出令人感興趣的數(shù)據(jù)子集并形成對隱藏信息的假設(shè)。具體任務(wù)包括:收集原始數(shù)據(jù),描述數(shù)據(jù),探索數(shù)據(jù)和檢驗數(shù)據(jù)質(zhì)量。(3)數(shù)據(jù)準(zhǔn)備。包括基于最初原始數(shù)據(jù)構(gòu)建最終數(shù)據(jù)集的全部活動。具體任務(wù):選擇數(shù)據(jù),清洗數(shù)據(jù),構(gòu)造數(shù)據(jù),整合數(shù)據(jù),格式化數(shù)據(jù)等。(4)建模。本階段需要選擇和使用各種建模技術(shù),并對模型的參數(shù)進行調(diào)優(yōu)。具體任務(wù)包括:選擇建模技術(shù),生成測試設(shè)計,生成模型,評估模型。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型:CRISP-DM1.4大數(shù)據(jù)挖掘的概念和流程(5)評價。就是對模型進行較為全面的評價,重審構(gòu)建模型的步驟以確認(rèn)能正確達(dá)到商業(yè)目的。具體任務(wù)包括評價結(jié)果,重審(審視)過程,確定下一步可能采取的措施列表等。(6)部署。部署與具體需求有關(guān),可能很簡單,也可以很復(fù)雜。大多數(shù)情況下,由用戶而不是數(shù)據(jù)分析師來完成部署工作。理解前端需要完成哪些工作,以便充分利用已建好的模型,對用戶來說很重要。具體任務(wù)包括規(guī)劃部署,規(guī)劃監(jiān)控和維護,生成最終報告,回顧項目。CRISP-DM流程是適用于所有行業(yè)的標(biāo)準(zhǔn)方法論,從第2階段起,每個階段都依賴于上一階段的結(jié)論,但6個階段的順序可以改變。尤其是商業(yè)理解和數(shù)據(jù)理解,數(shù)據(jù)準(zhǔn)備和建??赡芙?jīng)常出現(xiàn)反復(fù)循環(huán)。決定是否可以進入下一階段的原則是對達(dá)到最初業(yè)務(wù)目標(biāo)的判斷,如果業(yè)務(wù)目標(biāo)未達(dá)到,就要考慮是數(shù)據(jù)不充分,還是算法需要調(diào)整等問題。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型:CRISP-DM數(shù)據(jù)挖掘的主要任務(wù)1.51.5數(shù)據(jù)挖掘的主要任務(wù)一般而言,數(shù)據(jù)挖掘任務(wù)分為描述性任務(wù)和預(yù)測性任務(wù)。描述性任務(wù)是探查性的,用于刻畫數(shù)據(jù)中的一般性質(zhì),目標(biāo)是以更易理解的方式概括描述隱藏在數(shù)據(jù)背后的復(fù)雜現(xiàn)象或狀態(tài)。數(shù)據(jù)常與類或概念相關(guān)聯(lián),用匯總的、簡潔的、精確的表達(dá)方式描述每個類和概念有助于決策,描述方式可以是在數(shù)據(jù)庫上執(zhí)行SQL查詢或輸出餅圖、條形圖、曲線和多維表(如交叉表)等,所描述數(shù)據(jù)中的潛在聯(lián)系的模式可能涉及相關(guān)、趨勢、聚類、軌跡和異常等,例如根據(jù)銷售交易數(shù)據(jù)找出產(chǎn)品間的關(guān)聯(lián)以決定促銷的產(chǎn)品組合等。預(yù)測性任務(wù)基于歷史數(shù)據(jù),對數(shù)據(jù)中的規(guī)律進行歸納從而建立模型,目標(biāo)是根據(jù)一些屬性(自變量)的值來預(yù)測特定屬性(目標(biāo)變量)的值,例如預(yù)估產(chǎn)品在未來一個季度的銷售量,判斷某信用卡持有人是否存在違約風(fēng)險等。描述性任務(wù)和預(yù)測任務(wù)1.5.1分類與回歸從功能來講,數(shù)據(jù)挖掘任務(wù)有分類、回歸、聚類、關(guān)聯(lián)分析、異常檢測等。分類與回歸均為預(yù)測性建模任務(wù)。分類是這樣一個過程:它從明確定義的類標(biāo)號已知的數(shù)據(jù)集中歸納出區(qū)分樣本類的概化模型,以便能夠使用該模型預(yù)測類標(biāo)號未知的樣本的類標(biāo)號。分類中的類標(biāo)號(即目標(biāo)變量的取值)是離散的,對未知樣本預(yù)測的類是預(yù)先定義好的類中的一個。導(dǎo)出的模型可用多種形式表示:決策樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)、數(shù)學(xué)公式等。什么是分類1.5.1分類與回歸回歸用于目標(biāo)變量取連續(xù)值,且所有自變量屬性值都是數(shù)值時建立函數(shù)模型,以便能夠利用該模型預(yù)測缺失的或難以獲得的目標(biāo)變量的值。線性回歸,利用自變量屬性的線性組合來表示目標(biāo)變量,通過在訓(xùn)練數(shù)據(jù)集中基于均方誤差最小化學(xué)習(xí)到權(quán)值,從而獲得線性回歸預(yù)測模型。如果某屬性為分類型的,且屬性值間存在序(order)關(guān)系,則可通過連續(xù)化將其轉(zhuǎn)化為連續(xù)值,例如二值屬性“身高”的取值“高”“矮”可轉(zhuǎn)化為“1.0”“0.0”,三值屬性“高度”的取值“高”“中”“低”可轉(zhuǎn)化為“1.0”“0.5”“0.0”。如果屬性值間不存在序關(guān)系,假設(shè)有k個屬性值,則通常轉(zhuǎn)化為k維向量,例如屬性“瓜類”的取值“西瓜”“籽瓜”“哈密瓜”可轉(zhuǎn)化為(0,0,1),(0,1,0),(1,0,0)。值得注意的是,若將無序?qū)傩赃B續(xù)化,則會不恰當(dāng)?shù)匾胄蜿P(guān)系,對后續(xù)數(shù)據(jù)處理如距離計算造成誤導(dǎo)。例1.1,例1.2什么是回歸1.5.2聚類分析聚類分析在學(xué)習(xí)過程中無預(yù)定義的類標(biāo)號,它是通過相似性對輸入樣本自動形成“簇(cluster)”或緊密相關(guān)的組群來捕獲數(shù)據(jù)中的自然結(jié)構(gòu)的。聚類的原則是最大化簇內(nèi)相似性、最小化簇間相似性。對象簇這樣形成:相比之下,在同一個簇中的對象之間具有很高的相似性,而不同簇中的對象之間具有很高的相異性。簇是否體現(xiàn)數(shù)據(jù)中的自然結(jié)構(gòu),取決于聚類系統(tǒng)所采用的顯式或隱式的準(zhǔn)則。聚類所形成的每個簇可看成一個對象類,意味著類似的事件組織在一起每個簇可以推導(dǎo)出規(guī)則。聚類與分類的不同:聚類沒有預(yù)先定義好類別??梢允褂镁垲悓o標(biāo)記類的數(shù)據(jù)產(chǎn)生數(shù)據(jù)組群的類標(biāo)號。例1.3什么是聚類分析1.5.3關(guān)聯(lián)分析關(guān)聯(lián)分析用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系.所發(fā)現(xiàn)的模式表示為關(guān)聯(lián)規(guī)則或頻繁項集。關(guān)聯(lián)分析也被稱為“購物籃分析”。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方法提取最有趣的模式。一個例子:“98%的購買輪胎和汽車配件的顧客也得到汽車服務(wù)”,找出該規(guī)則對交叉銷售和配送服務(wù)有價值。關(guān)聯(lián)分析的應(yīng)用:生物信息學(xué)中找出具有相關(guān)功能的基因組;醫(yī)療診斷中挖掘可能導(dǎo)致某種疾病的因素與該疾病發(fā)生與診斷之間的關(guān)聯(lián)關(guān)系;網(wǎng)頁挖掘中識別用戶一起訪問的Web頁面;地球氣候系統(tǒng)中理解不同元素之間的聯(lián)系等。例1.4什么是關(guān)聯(lián)分析1.5.4異常檢測一個數(shù)據(jù)集中,與絕大多數(shù)數(shù)據(jù)的一般行為或模式顯著不同的數(shù)據(jù)對象被稱為異常點,也稱為離群點或孤立點。異常也被定義為遠(yuǎn)離其他觀測數(shù)據(jù),被疑為不同機制產(chǎn)生的觀測數(shù)據(jù)。在假定數(shù)據(jù)分布或概率模型的情況下,可以使用統(tǒng)計檢驗來檢測異常點。使用距離度量時,可以將遠(yuǎn)離任何簇的數(shù)據(jù)對象視為異常點;基于密度的方法也可以識別局部區(qū)域的異常點,盡管從全局統(tǒng)計分析的角度來看,這些局部異常點可能是正常的。異常檢測算法的目標(biāo)是發(fā)現(xiàn)真正的異常點。一個好的異常檢測算法應(yīng)該具有高檢測率和低誤報率。當(dāng)數(shù)據(jù)挖掘應(yīng)用是發(fā)現(xiàn)數(shù)據(jù)對象的一般行為模式時,可能將異常點視為噪聲或偏差而丟棄,但在關(guān)注數(shù)據(jù)非一般模式的應(yīng)用中,異常事件比正常事件更令人感興趣。例1.5什么是異常檢測大數(shù)據(jù)挖掘的工具與技術(shù)1.61.6.1PythonPython由荷蘭數(shù)學(xué)和計算機科學(xué)研究中心GuidovanRossum于1989年設(shè)計發(fā)明。Python代碼易閱讀、易維護;免費、開源,被移植到很多平臺上,例如Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2,以及Google基于Linux開發(fā)的Android平臺等支持面向過程編程,也支持面向?qū)ο缶幊?。具有可擴展性、可擴充性和可嵌入性。為所有主要商業(yè)數(shù)據(jù)庫提供了接口,為大型程序提供了更好的結(jié)構(gòu)和支持。Python有豐富的標(biāo)準(zhǔn)庫和擴展庫,可以處理各類工作,完成各種高級任務(wù)。NumPy提供快速數(shù)組處理、SciPy提供數(shù)值運算功能,Matplotlib提供繪圖功能;機器學(xué)習(xí)庫Scikit-Learn為用戶提供各種機器學(xué)習(xí)的算法接口,使用戶可以簡單、高效地進行數(shù)據(jù)挖掘和數(shù)據(jù)分析。版本不斷更新,不斷添加新功能,Python逐漸被用于獨立的、大型項目的開發(fā)。Python簡介1.6.2HadoopHadoop是開源社區(qū)Apache的,基于廉價商業(yè)硬件集群和開放標(biāo)準(zhǔn)的,分布式數(shù)據(jù)存儲及處理平臺。是首選的大數(shù)據(jù)分析工具。Hadoop具有高可靠性、高擴展性、高效性、高容錯性、計算性能和低成本等優(yōu)勢,支持多種編程語言,擅長存儲大量的半結(jié)構(gòu)化數(shù)據(jù)集,數(shù)據(jù)可以隨機存放,一個磁盤的失敗并不會造成數(shù)據(jù)丟失。Hadoop擅長分布式計算,可快速地跨多臺機器處理PB量級的大型數(shù)據(jù)集合。Hadoop常部署在低成本的Intel/Linux硬件平臺上,由多臺裝有Intelx86處理器的服務(wù)器或PC(個人計算機)通過高速局域網(wǎng)構(gòu)成一個計算集群,在各個節(jié)點上運行Linux操作系統(tǒng)。Hadoop簡介1.6.2HadoopHadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成員組成,最核心部分是HDFS和MapReduce并行計算編程模型。HDFS為海量數(shù)據(jù)提供存儲功能,MapReduce計算引擎在HDFS的上一層,用于大規(guī)模數(shù)據(jù)集的并行運算。采用分而治之的思想:將大數(shù)據(jù)集劃分為小數(shù)據(jù)集,將小數(shù)據(jù)集劃分為更小數(shù)據(jù)集,將更小數(shù)據(jù)集分發(fā)到集群節(jié)點上,以并行方式完成計算處理,然后再將計算結(jié)果遞歸合并,得到最終的計算結(jié)果。多節(jié)點計算所涉及的任務(wù)調(diào)度、負(fù)載均衡、容錯處理等都由MapReduce框架完成。HDFS和MapReduce并行計算編程模型構(gòu)成了大數(shù)據(jù)計算平臺Hadoop的兩個核心功能模塊,它們提供了在普通商業(yè)集群上完成大數(shù)據(jù)集計算處理的能力。Hadoop簡介1.6.3SparkSpark是開源大數(shù)據(jù)處理框架,最初由加州大學(xué)伯克利分校的AMPLab開發(fā)。Spark提供了一種快速、通用且易于使用的計算模型,可以處理各種類型的大規(guī)模數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。核心特性是其內(nèi)存計算能力和彈性分布式數(shù)據(jù)集(簡稱RDD)。RDD是Spark的主要數(shù)據(jù)抽象,它是一個可分區(qū)、可并行處理和可容錯的數(shù)據(jù)集合。RDD既可以從磁盤讀取數(shù)據(jù),也可以通過轉(zhuǎn)換操作從其他RDD中獲取,還可以在內(nèi)存中進行持久化和緩存。提供了豐富的API,支持各種數(shù)據(jù)處理操作,如過濾、映射、聚合、排序、連接等,提供了豐富的高級庫和工具,用于處理圖形計算、機器學(xué)習(xí)、流處理和SQL查詢等。S架構(gòu)基于主-從模式,其中一個主節(jié)點負(fù)責(zé)協(xié)調(diào)任務(wù)和資源管理,多個工作節(jié)點(從節(jié)點)執(zhí)行具體的計算任務(wù)。還支持在分布式環(huán)境中運行,并提供了內(nèi)置的容錯機制,以保證節(jié)點故障時數(shù)據(jù)的可靠性和計算的持續(xù)性。Spark簡介大數(shù)據(jù)挖掘的應(yīng)用1.71.7.1大數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用金融行業(yè)使用數(shù)據(jù)挖掘較早。隨著金融領(lǐng)域信息化的迅速發(fā)展,銀行和金融機構(gòu)在交易、信貸、投資、儲存等服務(wù)業(yè)務(wù)中產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)通常比較完整、可靠、規(guī)范,并具有較高的質(zhì)量,極大地方便了數(shù)據(jù)挖掘的成功應(yīng)用。對大量數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和模型化處理,提取有價值的信息,有助于企業(yè)進行商業(yè)決策。匯豐、花旗和瑞士銀行等均是數(shù)據(jù)挖掘技術(shù)應(yīng)用的先行者。數(shù)據(jù)挖掘可應(yīng)用于貸款償還預(yù)測、客戶信用評價和交叉銷售等。金融行業(yè)是數(shù)據(jù)挖掘的先行者1.7.1數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用與貸款償還風(fēng)險有關(guān)的因素:貸款金額、貸款率、貸款期限、借款方的負(fù)債率、償還收入比、收入水平、受教育程度、年齡、職業(yè)、居住地區(qū)、信用歷史等。數(shù)據(jù)挖掘可幫助金融機構(gòu)識別影響貸款風(fēng)險的重要因素和非重要因素。對歷史數(shù)據(jù)建立分類模型預(yù)測貸款違約,制定貸款發(fā)放政策,將貸款發(fā)放給低風(fēng)險借款者。使用信用評分對貸款申請者打分,產(chǎn)生優(yōu)質(zhì)與否的評判。信用評分根據(jù)客戶的歷史信用資料,構(gòu)建信用評分模型,得到不同等級的信用分?jǐn)?shù)。授信者根據(jù)客戶的信用分?jǐn)?shù)分析客戶按時還款的可能性,決定是否授信以及授信的額度和利率,以便保證還款等業(yè)務(wù)的安全性。信用評分模型構(gòu)建:確定業(yè)務(wù)目標(biāo)、識別數(shù)據(jù)源、收集數(shù)據(jù)、選擇數(shù)據(jù)、數(shù)據(jù)質(zhì)量的審核、數(shù)據(jù)的轉(zhuǎn)換、模型的建立與評估、結(jié)果的解釋、決策建議和應(yīng)用部署等。風(fēng)險控制與信用評分1.7.1數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用當(dāng)客戶來銀行尋求一項服務(wù)時,銀行在未來某個時間點上滿足客戶其他需求的能力是建立在預(yù)先存在的關(guān)系的基礎(chǔ)上。當(dāng)銀行交叉銷售處于最佳狀態(tài)時,銀行便與現(xiàn)有客戶建立了良好的互信關(guān)系。銀行交叉銷售典型例子:擁有支票或儲蓄賬戶的客戶選擇該銀行的其它金融服務(wù)。例如,銀行向有支票賬戶或儲蓄賬戶的客戶提供汽車貸款服務(wù)??蛻粝蜚y行尋求汽車貸款,而不是利用經(jīng)銷商融資購買新車。當(dāng)銀行能夠滿足客戶的需求,并提供優(yōu)于經(jīng)銷商融資的利率時,客戶便以較低的個人成本獲得融資,而銀行也能從中獲益。銀行有大量客戶交易信息,通過關(guān)聯(lián)分析可以找出數(shù)據(jù)中隱藏的關(guān)聯(lián)關(guān)系,預(yù)測客戶的潛在需求,創(chuàng)造個性化的服務(wù)產(chǎn)品,并從各產(chǎn)品中找出關(guān)聯(lián)性較強的產(chǎn)品,對客戶進行有針對性的關(guān)聯(lián)營銷。還可以進行客戶細(xì)分、客戶價值分析、客戶流失預(yù)警、新客戶開發(fā)以及新產(chǎn)品推廣,發(fā)現(xiàn)具有潛在欺詐性的事件和反洗錢活動等;在證券市場,可以進行股票市場走勢預(yù)測,潛力股分析,股票價格預(yù)測等。交叉銷售1.7.2數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用主題較多,這些主題主要圍繞客戶生命周期:新客戶獲取、客戶成長、客戶成熟、客戶衰退和客戶離開五個階段??蛻魞r值是指從企業(yè)角度出發(fā),根據(jù)客戶的消費行為等數(shù)據(jù)分析客戶能夠為企業(yè)創(chuàng)造哪些價值。不同客戶或客戶群對企業(yè)的價值貢獻具有差異性,80%的利潤往往來自20%的客戶。企業(yè)有必要區(qū)別對待不同客戶或客戶群,即采取不同的服務(wù)政策與管理策略,優(yōu)化配置企業(yè)有限的資源,以實現(xiàn)高產(chǎn)出。電信客戶價值分析包括:客戶當(dāng)前價值分析和客戶潛在價值分析。前者通過客戶的利潤率和ARPU(AverageRevenuePerUser,每客戶平均收入)等指標(biāo)計算當(dāng)前客戶價值得分;后者基于客戶的人口統(tǒng)計學(xué)屬性、客戶的通話行為和計帳屬性等數(shù)據(jù),通過建立數(shù)據(jù)挖掘模型,計算不同客戶或客戶群的潛在價值得分。結(jié)合當(dāng)前價值得分和潛在價值得分,得到客戶價值得分,可以此衡量客戶對電信企業(yè)的利潤的貢獻,也是企業(yè)爭取客戶、保持客戶的重要依據(jù)??蛻魞r值分析1.7.2數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用對電信企業(yè)來講,市場競爭就是對客戶的競爭。在客戶成熟期,運營商可基于客戶的人口統(tǒng)計學(xué)特征、消費行為、上網(wǎng)行為和興趣愛好等方面的數(shù)據(jù),借助分類、聚類等技術(shù)將客戶分組,使同一組的客戶之間盡可能相似,不同組的客戶之間盡可能相異。依據(jù)客戶差異化的分組可以確定企業(yè)感興趣的客戶群。針對不同客戶群的消費特征制定不同的價格和促銷策略,推薦更具個性化的服務(wù)產(chǎn)品,來提高客戶的滿意度,降低服務(wù)成本,增加ARPU值,提高企業(yè)的市場競爭力??蛻艏?xì)分1.7.3數(shù)據(jù)挖掘在醫(yī)療行業(yè)的應(yīng)用醫(yī)療相關(guān)行業(yè)的數(shù)據(jù)挖掘應(yīng)用涉及醫(yī)院、藥企及研發(fā)機構(gòu)、政府部門及保險公司等。醫(yī)院的大數(shù)據(jù)應(yīng)用包括臨床數(shù)據(jù)對比、臨床決策支持、遠(yuǎn)程病人數(shù)據(jù)分析、就診行為分析以及醫(yī)院管理決策等。藥品生產(chǎn)企業(yè)及研發(fā)機構(gòu)的大數(shù)據(jù)應(yīng)用包括藥物研發(fā)、基因測序和基本藥物臨床應(yīng)用分析等。政府部門及保險公司的大數(shù)據(jù)應(yīng)用包括醫(yī)療保險費用分析、實時統(tǒng)計分析以及“新農(nóng)合”基金數(shù)據(jù)分析等。醫(yī)療健康數(shù)據(jù)包含:移動端個人健康數(shù)據(jù)、醫(yī)院臨床數(shù)據(jù)、基因數(shù)據(jù)以及疾病預(yù)防控制的流調(diào)數(shù)據(jù)等。多來源數(shù)據(jù)融合可為個人健康規(guī)劃、疾病防治以及國家衛(wèi)生策略提供更好地進行科學(xué)決策的數(shù)據(jù)基礎(chǔ)。一些醫(yī)院擁有大量的以電子病歷為核心的臨床數(shù)據(jù),記錄了病人的疾病、診斷及治療等信息,對這些數(shù)據(jù)進行分析和挖掘,可輔助醫(yī)生進行臨床科研與臨床診療?;跀?shù)據(jù)挖掘建立的疾病早期預(yù)警模型,有助于疾病的早期診斷、預(yù)警和監(jiān)護,也有利于醫(yī)療機構(gòu)采取預(yù)防和控制措施,減少疾病惡化及并發(fā)癥的發(fā)生。應(yīng)用主題1.7.4社會網(wǎng)絡(luò)分析社交平臺上個體之間的關(guān)系隱含在數(shù)據(jù)中,這種關(guān)系包含了豐富的信息。社會網(wǎng)絡(luò)是由圖表示的異構(gòu)多關(guān)系數(shù)據(jù)集就是,其中節(jié)點表示對象,代表人或組織等,邊表示對象間的聯(lián)系或相互依賴的鏈接,代表朋友關(guān)系、共同興趣或合作活動等。社會網(wǎng)絡(luò)可以是科學(xué)家的合著和引用關(guān)系網(wǎng)絡(luò)、消費者網(wǎng)絡(luò)、公司內(nèi)的信息交換、朋友關(guān)系,也可以是萬維網(wǎng)、電力網(wǎng)、電話交互網(wǎng)等。社會網(wǎng)絡(luò)分析旨在研究一組行動者之間的關(guān)系。行動者可以是人、社區(qū)、群體、組織、國家等。進行社會網(wǎng)絡(luò)分析需要用到數(shù)據(jù)挖掘技術(shù)。關(guān)系模式反映的現(xiàn)象是分析的焦點,例如:從社會網(wǎng)絡(luò)角度出發(fā),人在社會環(huán)境中的相互作用可表達(dá)為基于關(guān)系的一種模式或規(guī)則,這些模式或規(guī)則反映了社會結(jié)構(gòu)。例如:Web本質(zhì)上是一個虛擬社會關(guān)系網(wǎng),每個網(wǎng)頁是一個行動者,每個超鏈接是一個關(guān)系,在Web環(huán)境下進行社會網(wǎng)絡(luò)分析,可挖掘Web用戶行為模式,并以此為依據(jù)改進諸如推薦、信息檢索、網(wǎng)絡(luò)輿情監(jiān)測等系統(tǒng)的應(yīng)用效果,并提升用戶體驗。在使用敏感信息時,數(shù)據(jù)挖掘人員有義務(wù)考慮法律層面和道德層面的問題,如是否侵犯隱私、是否將客戶推向困境等。應(yīng)用主題1.7.5推薦系統(tǒng)推薦系統(tǒng)是一種信息過濾系統(tǒng),用于預(yù)測用戶對物品的“評分”或“偏好”,并據(jù)此生成物品的推薦列表,為用戶提供個性化的信息服務(wù)。推薦系統(tǒng)的核心是推薦技術(shù)和算法,涵蓋分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及時間序列分析等。推薦系統(tǒng)對用戶與某類物品之間的聯(lián)系建模。比如利用推薦系統(tǒng)來告訴用戶他們可能會喜歡的書籍、服裝、電影、音樂、新聞等。如果推薦的準(zhǔn)確性高,就能吸引更多的用戶持續(xù)使用相應(yīng)的服務(wù)。推薦系統(tǒng)通過研究用戶的興趣偏好進行個性化計算,發(fā)現(xiàn)用戶的興趣點,從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。一個好的推薦系統(tǒng)不僅能為用戶提供個性化的服務(wù),還能和用戶建立密切關(guān)系,使用戶對推薦產(chǎn)生依賴。亞馬遜,全球最大的電商平臺之一,其成功不僅在于豐富的商品和有競爭力的價格,還在于其卓越的個性化推薦和營銷策略。推薦系統(tǒng)已廣泛應(yīng)用于很多行業(yè)。應(yīng)用主題參考文獻[1](英)ViktorMayer-Sch?nberger,Ke

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論