大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章緒論

上傳人：h*** IP屬地：山東上傳時(shí)間：2024-09-28 格式：PPTX 頁(yè)數(shù)：59 大小：749.10KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩54頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章緒論第2章數(shù)據(jù)分析與可視化技術(shù)第3章認(rèn)識(shí)數(shù)據(jù)第4章數(shù)據(jù)預(yù)處理第5章分類概念與方法第6章關(guān)聯(lián)分析概念與方法第7章聚類分析概念與方法第8章大數(shù)據(jù)挖掘關(guān)鍵技術(shù)第9章案例分析第1章緒論大數(shù)據(jù)挖掘?qū)д撆c案例學(xué)習(xí)目標(biāo)/Target了解大數(shù)據(jù)的概念與特征，了解大數(shù)據(jù)挖掘的過程模型了解大數(shù)據(jù)挖掘的工具與技術(shù)，了解大數(shù)據(jù)挖掘的應(yīng)用了解數(shù)據(jù)科學(xué)的產(chǎn)生與興起，了解數(shù)據(jù)科學(xué)工作者應(yīng)具備的基礎(chǔ)和技能引言/Introduction國(guó)際權(quán)威機(jī)構(gòu)Statista的統(tǒng)計(jì)和預(yù)測(cè)顯示，2019年全球數(shù)據(jù)量達(dá)到41ZB，2020年達(dá)到47ZB，2025則增長(zhǎng)到175ZB，而到2035年，這一數(shù)字將達(dá)到2142ZB。大數(shù)據(jù)已持續(xù)引起人們生活、工作和思維模式的大變革。人們的注意力已轉(zhuǎn)移到尋找大數(shù)據(jù)使用的真正價(jià)值上。數(shù)據(jù)的爆炸式增長(zhǎng)，對(duì)數(shù)據(jù)技術(shù)提出了更高的要求。目錄/Contents010203數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家大數(shù)據(jù)的概念和特征大數(shù)據(jù)的主要來(lái)源0405大數(shù)據(jù)挖掘的概念和流程數(shù)據(jù)挖掘的主要任務(wù)目錄/Contents0607大數(shù)據(jù)挖掘的工具與技術(shù)大數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.11.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1962年，美國(guó)數(shù)學(xué)家JohnW.Tukey在《數(shù)理統(tǒng)計(jì)年鑒》上發(fā)表題為“數(shù)據(jù)分析的未來(lái)”的論文，為未來(lái)數(shù)據(jù)科學(xué)的發(fā)展奠定了基礎(chǔ)。1966年，丹麥計(jì)算機(jī)科學(xué)家PeterNaur發(fā)明了“數(shù)據(jù)學(xué)（Datalogy）”。1974年出版《計(jì)算機(jī)方法簡(jiǎn)明概述》,首次使用“數(shù)據(jù)科學(xué)”一詞，將數(shù)據(jù)科學(xué)定義為“處理數(shù)據(jù)的科學(xué)”。1977年，JohnW.Tukey出版著作《探索性數(shù)據(jù)分析》，提出：探索性數(shù)據(jù)分析和論證性數(shù)據(jù)分析能夠且應(yīng)該并駕齊驅(qū)。1989年，GregoryPiatetsky-Shapiro提出“知識(shí)發(fā)現(xiàn)”和“數(shù)據(jù)挖掘”，組織并主持了第一屆“數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)（KnowledgeDiscoveryinDatabases，KDD）”研討會(huì)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1991年，Piatetsky-Shapiro和Frawley等人出版論文合集《數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)》。1993年，JohnChambers發(fā)表了題為“GreaterorLesserStatistics:AChoiceforFutureResearch”的論文，呼吁統(tǒng)計(jì)學(xué)領(lǐng)域?qū)鹘y(tǒng)統(tǒng)計(jì)學(xué)進(jìn)行改革。文中指出傳統(tǒng)統(tǒng)計(jì)學(xué)在未來(lái)的研究中將面臨兩種選擇：（1）“更專有（Lesser）”。以數(shù)學(xué)技巧為主導(dǎo)，專注于傳統(tǒng)課題和數(shù)學(xué)本身，以學(xué)術(shù)研究為主，與其他相關(guān)學(xué)科交流較少；（2）“更包容”（Greater）。從數(shù)據(jù)中學(xué)習(xí)，兼收并蓄，以應(yīng)用為主，與其他相關(guān)學(xué)科交流頻繁。Chambers指出更包容雖然充滿挑戰(zhàn)，但會(huì)帶來(lái)更多的機(jī)遇；而更專有則有可能使傳統(tǒng)統(tǒng)計(jì)學(xué)研究變得越來(lái)越邊緣化。Chambers呼吁要打破傳統(tǒng)統(tǒng)計(jì)學(xué)的邊界，更多地專注于數(shù)據(jù)本身，正視數(shù)據(jù)分析本質(zhì)上是一種基于經(jīng)驗(yàn)的科學(xué)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1989年至1994年召開4次KDD國(guó)際研討會(huì)。1995年，數(shù)據(jù)挖掘界舉辦第一屆“知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘”國(guó)際學(xué)術(shù)會(huì)議。1996年，國(guó)際分類協(xié)會(huì)聯(lián)盟在日本神戶召開的第5次國(guó)際會(huì)議上，首次正式使用“數(shù)據(jù)科學(xué)”術(shù)語(yǔ)，并將其納入會(huì)議標(biāo)題。會(huì)后出版會(huì)議論文選集《數(shù)據(jù)科學(xué)，分類和相關(guān)方法》，涵蓋了不斷發(fā)展的數(shù)據(jù)科學(xué)領(lǐng)域中出現(xiàn)的廣泛主題和觀點(diǎn)，包括與數(shù)據(jù)收集、分類、聚類、探索性和多元數(shù)據(jù)分析，以及發(fā)現(xiàn)和尋求知識(shí)有關(guān)的領(lǐng)域的理論和方法方面的進(jìn)步。同年，UsamaM.Fayyad、GregoryPiatetsky-Shapiro、PadhraicSmyth和RamasamyUthurusamy出版《知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的進(jìn)展》，匯集了知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的研究成果。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1997年，應(yīng)用統(tǒng)計(jì)學(xué)家C.F.JeffWu在“統(tǒng)計(jì)學(xué)=數(shù)據(jù)科學(xué)？（Statistics=DataScience？）”的演講中，將當(dāng)時(shí)定義的“統(tǒng)計(jì)學(xué)工作內(nèi)容”描述為：數(shù)據(jù)收集、數(shù)據(jù)建模與分析、洞察與決策三部曲，并提出了他對(duì)未來(lái)統(tǒng)計(jì)學(xué)發(fā)展方向的展望，呼吁將統(tǒng)計(jì)學(xué)重新命名為數(shù)據(jù)科學(xué)。1998年，ACM-SIGKDD成立，1999年以來(lái)一直組織SIGKDD國(guó)際會(huì)議。目前，SIGKDD是數(shù)據(jù)挖掘研究領(lǐng)域的頂級(jí)會(huì)議。2001年，美國(guó)統(tǒng)計(jì)學(xué)教授WilliamS.Cleveland在《國(guó)際統(tǒng)計(jì)評(píng)論》上發(fā)表文章“數(shù)據(jù)科學(xué)：一種拓展統(tǒng)計(jì)學(xué)技術(shù)領(lǐng)域的行動(dòng)”，首次將數(shù)據(jù)科學(xué)作為一個(gè)單獨(dú)的學(xué)科，并把數(shù)據(jù)科學(xué)定義為統(tǒng)計(jì)學(xué)領(lǐng)域擴(kuò)展到以數(shù)據(jù)作為研究對(duì)象，與信息和計(jì)算機(jī)科學(xué)技術(shù)相結(jié)合的學(xué)科，奠定了數(shù)據(jù)科學(xué)的理論基礎(chǔ)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2002年，數(shù)據(jù)科學(xué)與技術(shù)委員會(huì)（CODATA）創(chuàng)辦了《數(shù)據(jù)科學(xué)期刊》，聚焦于數(shù)據(jù)系統(tǒng)描述及其網(wǎng)絡(luò)出版物、應(yīng)用和法律問題等。2003年，哥倫比亞大學(xué)創(chuàng)辦《數(shù)據(jù)科學(xué)期刊》，為致力于統(tǒng)計(jì)學(xué)方法應(yīng)用和定量研究的數(shù)據(jù)工作者提供發(fā)表意見和交流思想的平臺(tái)。2007年，圖靈獎(jiǎng)獲得者JimGray在NRC-CSTB的會(huì)議上，發(fā)表了著名演講——“科學(xué)方法的一次變革”，他將數(shù)據(jù)科學(xué)視為科學(xué)的“第四范式”。認(rèn)為：人類科學(xué)研究活動(dòng)已經(jīng)經(jīng)歷過三種不同范式，分別是描述自然現(xiàn)象的“實(shí)驗(yàn)科學(xué)”、以模型和歸納為特征的“理論科學(xué)”和以模擬與仿真為特征的“計(jì)算科學(xué)”，而且科學(xué)探索正在從“計(jì)算科學(xué)”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)”，即第四范式（也稱為eScience）。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2008年，建立LinkedIn數(shù)據(jù)團(tuán)隊(duì)的主管DhanurjayPatil和領(lǐng)導(dǎo)Facebook數(shù)據(jù)團(tuán)隊(duì)的JeffHammerbacher提出了“數(shù)據(jù)科學(xué)家”術(shù)語(yǔ)。2009年，數(shù)據(jù)科學(xué)家MikeDriscoll在題為“數(shù)據(jù)極客的三項(xiàng)迷人技能”的文章中，闡述了數(shù)據(jù)科學(xué)家的重要性。2009年，微軟研究院副總裁Tony

Hey為已故JimGray發(fā)行了以數(shù)據(jù)科學(xué)為主題的論文集《第四范式：數(shù)據(jù)密集型發(fā)現(xiàn)》。2010年，DrewConway提出數(shù)據(jù)科學(xué)維恩圖，首次探討數(shù)據(jù)科學(xué)的學(xué)科定位問題。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2013年，美國(guó)計(jì)算機(jī)科學(xué)家ChrisA.Mattmann在《自然》發(fā)表題為“計(jì)算——數(shù)據(jù)科學(xué)的愿景”的評(píng)論文章，針對(duì)大數(shù)據(jù)進(jìn)行了具體闡述（未區(qū)分?jǐn)?shù)據(jù)科學(xué)與大數(shù)據(jù)），解釋了大數(shù)據(jù)的復(fù)雜性和挑戰(zhàn)，且認(rèn)為需要同時(shí)熟悉數(shù)據(jù)科學(xué)和先進(jìn)計(jì)算技術(shù)的數(shù)據(jù)科學(xué)家。2013年，紐約大學(xué)VasantDhar教授在《美國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》上發(fā)表題為“數(shù)據(jù)科學(xué)與預(yù)測(cè)”的論文，認(rèn)為數(shù)據(jù)科學(xué)不同于統(tǒng)計(jì)和其他現(xiàn)有學(xué)科。同時(shí)提出了3個(gè)主要觀點(diǎn)：（1）數(shù)據(jù)科學(xué)是從數(shù)據(jù)中歸納提取知識(shí)的研究；（2）評(píng)估新知識(shí)是否可用于決策的一個(gè)共同要求是其預(yù)測(cè)能力，而不僅僅是其解釋過去的能力；（3）數(shù)據(jù)科學(xué)家需要涵蓋數(shù)學(xué)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)的綜合技能，并且具有對(duì)提出問題技巧的深刻理解并設(shè)計(jì)出有效的解決方案的能力。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2013年，紐約大學(xué)FosterProvost與TomFawcett在《大數(shù)據(jù)》上發(fā)表題為“數(shù)據(jù)科學(xué)及其與大數(shù)據(jù)和數(shù)據(jù)驅(qū)動(dòng)決策的關(guān)系”的論文，將數(shù)據(jù)科學(xué)定性為數(shù)據(jù)工程和處理技術(shù)與“數(shù)據(jù)驅(qū)動(dòng)的決策”之間的接口。對(duì)數(shù)據(jù)科學(xué)這樣定義：“從較高層次上講，數(shù)據(jù)科學(xué)是一組基本原理，它們支持并指導(dǎo)從數(shù)據(jù)中提取信息和知識(shí)的原則。與數(shù)據(jù)科學(xué)最密切相關(guān)的概念可能是數(shù)據(jù)挖掘，即通過結(jié)合這些原理的技術(shù)從數(shù)據(jù)中實(shí)際提取知識(shí)”。數(shù)據(jù)科學(xué)的三個(gè)標(biāo)志性事件：（1）DhanurjayPatil和ThomasH.Davenport2012年在《哈佛商業(yè)評(píng)論》發(fā)表題為“數(shù)據(jù)科學(xué)家——21世紀(jì)最有魅力的職業(yè)；（2）2012年大數(shù)據(jù)思維被首次應(yīng)用于美國(guó)總統(tǒng)大選，奧巴馬成功連任；（3）白宮2015年首次設(shè)立數(shù)據(jù)科學(xué)家崗位，聘請(qǐng)DhanurjayPatil作為白宮第一任首席數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)的技術(shù)成長(zhǎng)逐步走向穩(wěn)定上升期。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)是一個(gè)廣泛領(lǐng)域，涉及數(shù)據(jù)的收集、存儲(chǔ)、處理、分析和解釋等。數(shù)據(jù)科學(xué)家利用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和領(lǐng)域知識(shí)等多個(gè)學(xué)科的方法和技術(shù)來(lái)處理和分析數(shù)據(jù)，以提取有價(jià)值的信息和洞察力。數(shù)據(jù)挖掘是數(shù)據(jù)科學(xué)的一個(gè)重要組成部分，它提供探索和分析大規(guī)模數(shù)據(jù)集的工具和技術(shù)，用于發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)聯(lián)，從而提供洞察力和價(jià)值。數(shù)據(jù)科學(xué)家可以使用數(shù)據(jù)挖掘技術(shù)來(lái)解決實(shí)際問題，提取有用的信息，支持決策制定過程。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)與其他學(xué)科不同：思維模式的轉(zhuǎn)變，對(duì)數(shù)據(jù)認(rèn)識(shí)的變化，指導(dǎo)思想的變化，以數(shù)據(jù)產(chǎn)品開發(fā)為主要目的等。數(shù)據(jù)科學(xué)通過系統(tǒng)研究和分析不同數(shù)據(jù)源，理解數(shù)據(jù)含義，運(yùn)用數(shù)據(jù)作為工具實(shí)現(xiàn)有效的決策制定和問題求解。數(shù)據(jù)科學(xué)的目的是促進(jìn)與數(shù)據(jù)相關(guān)的各種流程的應(yīng)用（例如數(shù)據(jù)獲取、清洗噪聲的數(shù)據(jù)預(yù)處理、數(shù)據(jù)表示、數(shù)據(jù)評(píng)估、數(shù)據(jù)分析），以及數(shù)據(jù)創(chuàng)建相關(guān)知識(shí)的運(yùn)用。數(shù)據(jù)科學(xué)的目標(biāo)是發(fā)現(xiàn)知識(shí)，以幫助個(gè)人、組織機(jī)構(gòu)乃至全球?qū)用嫔线M(jìn)行科學(xué)決策。數(shù)據(jù)科學(xué)領(lǐng)域必然通過分析網(wǎng)絡(luò)日志、傳感器系統(tǒng)、事務(wù)數(shù)據(jù)生成的大數(shù)據(jù)，產(chǎn)生有效的洞察并派生出新數(shù)據(jù)產(chǎn)品。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)涉及數(shù)據(jù)的收集、存儲(chǔ)、處理、分析和解釋等方面。數(shù)據(jù)科學(xué)家利用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和領(lǐng)域知識(shí)等多個(gè)學(xué)科的方法和技術(shù)來(lái)處理和分析數(shù)據(jù)，以從中提取有價(jià)值的信息和洞察。數(shù)據(jù)挖掘是數(shù)據(jù)科學(xué)的重要組成部分，為數(shù)據(jù)科學(xué)家提供探索和分析大規(guī)模數(shù)據(jù)集的工具和技術(shù)，用于發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)聯(lián)。數(shù)據(jù)科學(xué)家使用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問題，提取有用的信息，支持決策過程。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.2從事數(shù)據(jù)科學(xué)活動(dòng)的重要基礎(chǔ)和技能數(shù)據(jù)科學(xué)的基礎(chǔ)來(lái)自三方面：推理思維，計(jì)算思維和現(xiàn)實(shí)世界中事物之間的相關(guān)性。數(shù)據(jù)科學(xué)通過探索、預(yù)測(cè)和推理從龐大且多樣化的數(shù)據(jù)集中得出有用結(jié)論。探索涉及識(shí)別信息模式，主要工具是可視化和描述性統(tǒng)計(jì)；預(yù)測(cè)涉及使用已知信息對(duì)希望知道的值進(jìn)行明智的猜測(cè)，主要工具是機(jī)器學(xué)習(xí)和優(yōu)化；推理涉及量化預(yù)測(cè)的確定性程度，主要工具是統(tǒng)計(jì)檢驗(yàn)和模型。數(shù)據(jù)科學(xué)要求從業(yè)者具備傳統(tǒng)科學(xué)中的理論知識(shí)與實(shí)踐能力，還要具有數(shù)據(jù)科學(xué)家的3C精神——原創(chuàng)性（Creative）設(shè)計(jì)、批判性（Critical）思考和好奇性（Curious）的提問能力。數(shù)據(jù)科學(xué)家必須具備的重要技能：（1）計(jì)算機(jī)能力；（2）數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘能力。（3）數(shù)據(jù)可視化能力。（4）一些軟技能，例如，團(tuán)隊(duì)精神，溝通、交流能力，業(yè)務(wù)敏銳性，組織和解決問題的能力等。從事數(shù)據(jù)科學(xué)的基礎(chǔ)與數(shù)據(jù)科學(xué)家的技能大數(shù)據(jù)的概念、發(fā)展階段和特征1.21.2.1大數(shù)據(jù)的概念大數(shù)據(jù)的定義很多，下面是幾個(gè)具有代表性的定義。O'ReillyMedia的定義：大數(shù)據(jù)是超出傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)處理能力的數(shù)據(jù)。數(shù)據(jù)量太大，數(shù)據(jù)移動(dòng)太快或數(shù)據(jù)不符合傳統(tǒng)數(shù)據(jù)庫(kù)體系結(jié)構(gòu)的嚴(yán)格要求。為了從這些數(shù)據(jù)中獲取價(jià)值，必須選擇一種替代方法來(lái)處理它。Gartner給出的大數(shù)據(jù)定義：大數(shù)據(jù)是大容量、高速度和/或多種類型的信息資產(chǎn)，它們需要經(jīng)濟(jì)高效、創(chuàng)新的信息處理形式，以增強(qiáng)洞察力、決策能力和流程自動(dòng)化McKinsey對(duì)大數(shù)據(jù)的定義：大數(shù)據(jù)是指其規(guī)模超出典型數(shù)據(jù)庫(kù)軟件工具捕獲、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。綜上，大數(shù)據(jù)是指規(guī)模巨大、復(fù)雜度高并且難以使用傳統(tǒng)數(shù)據(jù)處理工具捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)的定義1.2.2大數(shù)據(jù)的發(fā)展階段大數(shù)據(jù)的發(fā)展可分為以下三個(gè)階段：第一階段：數(shù)據(jù)分析源于數(shù)據(jù)庫(kù)管理，依賴關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)中常見的對(duì)數(shù)據(jù)的存儲(chǔ)、提取和優(yōu)化技術(shù)。數(shù)據(jù)庫(kù)管理和數(shù)據(jù)倉(cāng)庫(kù)是此階段的核心組成部分。所使用的數(shù)據(jù)庫(kù)查詢、在線分析處理和標(biāo)準(zhǔn)報(bào)告等為現(xiàn)代數(shù)據(jù)分析奠定了基礎(chǔ)。第二階段：網(wǎng)絡(luò)提供獨(dú)特的數(shù)據(jù)收集和數(shù)據(jù)分析機(jī)會(huì)。網(wǎng)絡(luò)流量和在線商店的擴(kuò)大，Yahoo!、Amazon和eBay等公司開始通過分析點(diǎn)擊率、特定IP的位置數(shù)據(jù)和搜索日志來(lái)分析客戶行為。社交媒體引起大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)。極大增強(qiáng)了從半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中提取有意義信息的工具、技術(shù)和分析方法的需求。第三階段：基于Web的非結(jié)構(gòu)化數(shù)據(jù)仍然是許多機(jī)構(gòu)在大數(shù)據(jù)和數(shù)據(jù)分析方面的主要關(guān)注點(diǎn)。隨著移動(dòng)設(shè)備的興起，從移動(dòng)設(shè)備中發(fā)現(xiàn)了檢索有價(jià)值信息的可能性，從新數(shù)據(jù)源中提取有有價(jià)值信息的競(jìng)賽開始。大數(shù)據(jù)的發(fā)展1.2.3大數(shù)據(jù)的5V特征1．容量（Volume）指數(shù)據(jù)的大小或體量。數(shù)據(jù)的大小決定數(shù)據(jù)的價(jià)值和潛在的洞察力，以及是否可以將其視為大數(shù)據(jù)。大數(shù)據(jù)所面臨的挑戰(zhàn)：存儲(chǔ)，以及如何識(shí)別海量數(shù)據(jù)集中的相關(guān)數(shù)據(jù)并很好地利用它們。2．速度（Velocity）指數(shù)據(jù)生成和移動(dòng)的速度。數(shù)據(jù)流的速度有助于確定數(shù)據(jù)是否屬于大數(shù)據(jù)類別。大數(shù)據(jù)以越來(lái)越快的速度生成和移動(dòng)，意味著數(shù)據(jù)的采集和分析等過程必須迅速、及時(shí)。3．多樣性（Variety）指大數(shù)據(jù)包括多種不同格式和不同類型的數(shù)據(jù)。根據(jù)數(shù)據(jù)是否具有一定的模式、結(jié)構(gòu)和關(guān)系，可將數(shù)據(jù)分為三種基本類型：結(jié)構(gòu)化數(shù)據(jù)：具有固定的數(shù)據(jù)模式，是一種有組織的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)：另一種形式的結(jié)構(gòu)化數(shù)據(jù)，具有一定的結(jié)構(gòu)化特征，但是結(jié)構(gòu)變化大，且不遵循表格數(shù)據(jù)模型或關(guān)系數(shù)據(jù)庫(kù)的格式。非結(jié)構(gòu)化數(shù)據(jù)：不遵循固定的結(jié)構(gòu)或模式，是非組織化數(shù)據(jù)，不適于用二維表表示。大數(shù)據(jù)5V特征1.2.3大數(shù)據(jù)的5V特征4．真實(shí)性（Veracity）真實(shí)性也稱為準(zhǔn)確性，是數(shù)據(jù)質(zhì)量和完整性、準(zhǔn)確度及可信度的保證。許多形式的大數(shù)據(jù)的真實(shí)性很難控制，因?yàn)閿?shù)據(jù)中會(huì)存在噪聲和異常，也會(huì)存在不一致性和不確定性。由于數(shù)據(jù)往往是從多個(gè)來(lái)源收集的，因此在將其用于業(yè)務(wù)洞察之前，需要檢查其真實(shí)性。5．價(jià)值（Value）價(jià)值是大數(shù)據(jù)最重要的特征。作為物理符號(hào)的數(shù)據(jù)本身沒有用處，只有在它被轉(zhuǎn)化為有用信息時(shí)才能體現(xiàn)其價(jià)值，該價(jià)值表現(xiàn)為對(duì)決策的支持作用。大數(shù)據(jù)幾乎可以在任何商業(yè)或社會(huì)領(lǐng)域提供價(jià)值。

隨著數(shù)據(jù)量的增長(zhǎng)，大數(shù)據(jù)中有意義的信息卻不是成相應(yīng)比例增長(zhǎng)，即表現(xiàn)為低價(jià)值密度的特點(diǎn)。

數(shù)據(jù)挖掘是對(duì)大數(shù)據(jù)進(jìn)行分析和挖掘的理論核心。大數(shù)據(jù)5V特征大數(shù)據(jù)的主要來(lái)源1.31.3大數(shù)據(jù)的主要來(lái)源少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)，如關(guān)系型數(shù)據(jù)庫(kù)，數(shù)據(jù)倉(cāng)庫(kù)。大量人產(chǎn)生的數(shù)據(jù)，如微博、微信、Twitter、Facetime、通信軟件、移動(dòng)通信APP、電子商務(wù)在線交易日志、企業(yè)應(yīng)用的相關(guān)評(píng)論等數(shù)據(jù)。巨量機(jī)器產(chǎn)生的數(shù)據(jù)，如應(yīng)用服務(wù)器日志，以及各類傳感器、圖像和視頻監(jiān)控、二維碼和條形碼掃描等產(chǎn)生的數(shù)據(jù)。按產(chǎn)生數(shù)據(jù)的主體劃分1.3大數(shù)據(jù)的主要來(lái)源互聯(lián)網(wǎng)公司?；ヂ?lián)網(wǎng)公司產(chǎn)生的數(shù)據(jù)包括大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)。電信、金融、保險(xiǎn)、電力、石化系統(tǒng)。公共安全、醫(yī)療、交通領(lǐng)域。氣象、地理、政務(wù)等領(lǐng)域制造業(yè)和其他傳統(tǒng)行業(yè)。按產(chǎn)生數(shù)據(jù)的行業(yè)劃分1.3大數(shù)據(jù)的主要來(lái)源系統(tǒng)日志采集。使用海量數(shù)據(jù)采集工具進(jìn)行系統(tǒng)日志采集，如Hadoop的Chukwa、Cloudera的Flume等，這些工具均采用分布式架構(gòu)，能滿足大數(shù)據(jù)日志數(shù)據(jù)采集和傳輸需求?；ヂ?lián)網(wǎng)數(shù)據(jù)采集。通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)。把數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái)，存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件。支持圖片、音頻、視頻等文件或附件的采集。APP移動(dòng)端數(shù)據(jù)采集。APP是獲取用戶移動(dòng)端數(shù)據(jù)的一種有效方法。APP中的SDK（軟件開發(fā)工具包）插件可以將用戶使用APP的信息匯總給指定服務(wù)器。單個(gè)APP用戶的數(shù)據(jù)量有限，在有眾多APP及其用戶情況下，能夠獲取用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)可達(dá)到數(shù)億量級(jí)。與數(shù)據(jù)服務(wù)機(jī)構(gòu)合作。數(shù)據(jù)服務(wù)機(jī)構(gòu)通常具備規(guī)范的數(shù)據(jù)共享和交易渠道?？梢詮臄?shù)據(jù)服務(wù)機(jī)構(gòu)快速、明確地獲取所需要的數(shù)據(jù)。對(duì)于保密性要求較高的數(shù)據(jù)。按數(shù)據(jù)的存儲(chǔ)形式劃分1.3大數(shù)據(jù)的主要來(lái)源互聯(lián)網(wǎng)公司?；ヂ?lián)網(wǎng)公司產(chǎn)生的數(shù)據(jù)包括大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)。電信、金融、保險(xiǎn)、電力、石化系統(tǒng)。公共安全、醫(yī)療、交通領(lǐng)域。氣象、地理、政務(wù)等領(lǐng)域制造業(yè)和其他傳統(tǒng)行業(yè)。按產(chǎn)生數(shù)據(jù)的行業(yè)劃分大數(shù)據(jù)挖掘的概念和流程1.41.4大數(shù)據(jù)挖掘的概念和流程數(shù)據(jù)挖掘的定義有好多種，下面給出常見的三種UsamaM.Fayyad給出的定義：數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)是在大型數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的和最終可理解的模式的非平凡過程。早期，將數(shù)據(jù)挖掘看作整個(gè)知識(shí)發(fā)現(xiàn)過程的一個(gè)步驟，后來(lái)兩個(gè)術(shù)語(yǔ)替換使用，即數(shù)據(jù)挖掘也稱為知識(shí)發(fā)現(xiàn)。技術(shù)上的定義：數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道但又潛在有用的信息的過程。商業(yè)角度的定義：數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù)，其主要特點(diǎn)是對(duì)商業(yè)業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理，從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是大數(shù)據(jù)挖掘和分析的基石。數(shù)據(jù)挖掘的定義1.4大數(shù)據(jù)挖掘的概念和流程大數(shù)據(jù)挖掘和分析方法決定所獲得信息是否有價(jià)值。具有普遍性的方法和理論主要包括：可視化分析。直觀且簡(jiǎn)單明了呈現(xiàn)大數(shù)據(jù)的特點(diǎn)。是大數(shù)據(jù)分析的最基本要求。數(shù)據(jù)挖掘算法。各種數(shù)據(jù)挖掘算法基于不同的數(shù)據(jù)類型和格式，能夠更科學(xué)地呈現(xiàn)數(shù)據(jù)所具備的特點(diǎn)，且能夠深入數(shù)據(jù)內(nèi)部，快速挖掘出數(shù)據(jù)中隱藏的價(jià)值。預(yù)測(cè)性分析能力。預(yù)測(cè)性分析是大數(shù)據(jù)分析最重要的應(yīng)用。從大數(shù)據(jù)中挖掘特點(diǎn)并建立模型，將新數(shù)據(jù)代入模型預(yù)測(cè)未來(lái)。語(yǔ)義引擎。大數(shù)據(jù)分析廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)。語(yǔ)義引擎可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞等分析、判斷用戶需求，實(shí)現(xiàn)更好的用戶體驗(yàn)和廣告匹配。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理是成功進(jìn)行大數(shù)據(jù)挖掘和分析的重要保證。大數(shù)據(jù)挖掘和分析方法1.4大數(shù)據(jù)挖掘的概念和流程CRISP-DM過程模型文檔的主要內(nèi)容有5個(gè)部分：概述；CRISP-DM參考模型；CRISP-DM用戶指南；CRISP-DM報(bào)告；附錄。CRISP-DM參考模型中給出一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期由6個(gè)階段組成：商業(yè)理解（businessunderstanding）、數(shù)據(jù)理解（dataunderstanding）、數(shù)據(jù)準(zhǔn)備（datapreparation）、建模（modeling）、評(píng)估（evaluation）和部署（deployment）。各階段間的關(guān)系及流程如右圖。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型：CRISP-DM1.4大數(shù)據(jù)挖掘的概念和流程（1）商業(yè)理解。從商業(yè)角度理解項(xiàng)目目標(biāo)和需求，然后轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義和實(shí)現(xiàn)目標(biāo)的初步規(guī)劃。具體任務(wù)：確定商業(yè)目標(biāo)，評(píng)析環(huán)境，確定數(shù)據(jù)挖掘目標(biāo)，制定項(xiàng)目計(jì)劃等。（2）數(shù)據(jù)理解。指由最初的數(shù)據(jù)收集開始的一系列活動(dòng)。目的是熟悉數(shù)據(jù)、鑒別數(shù)據(jù)質(zhì)量，發(fā)現(xiàn)對(duì)數(shù)據(jù)的真知灼見，探索出令人感興趣的數(shù)據(jù)子集并形成對(duì)隱藏信息的假設(shè)。具體任務(wù)包括：收集原始數(shù)據(jù)，描述數(shù)據(jù)，探索數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)質(zhì)量。（3）數(shù)據(jù)準(zhǔn)備。包括基于最初原始數(shù)據(jù)構(gòu)建最終數(shù)據(jù)集的全部活動(dòng)。具體任務(wù)：選擇數(shù)據(jù)，清洗數(shù)據(jù)，構(gòu)造數(shù)據(jù)，整合數(shù)據(jù)，格式化數(shù)據(jù)等。（4）建模。本階段需要選擇和使用各種建模技術(shù)，并對(duì)模型的參數(shù)進(jìn)行調(diào)優(yōu)。具體任務(wù)包括：選擇建模技術(shù)，生成測(cè)試設(shè)計(jì)，生成模型，評(píng)估模型。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型：CRISP-DM1.4大數(shù)據(jù)挖掘的概念和流程（5）評(píng)價(jià)。就是對(duì)模型進(jìn)行較為全面的評(píng)價(jià)，重審構(gòu)建模型的步驟以確認(rèn)能正確達(dá)到商業(yè)目的。具體任務(wù)包括評(píng)價(jià)結(jié)果，重審（審視）過程，確定下一步可能采取的措施列表等。（6）部署。部署與具體需求有關(guān)，可能很簡(jiǎn)單，也可以很復(fù)雜。大多數(shù)情況下，由用戶而不是數(shù)據(jù)分析師來(lái)完成部署工作。理解前端需要完成哪些工作，以便充分利用已建好的模型，對(duì)用戶來(lái)說(shuō)很重要。具體任務(wù)包括規(guī)劃部署，規(guī)劃監(jiān)控和維護(hù)，生成最終報(bào)告，回顧項(xiàng)目。CRISP-DM流程是適用于所有行業(yè)的標(biāo)準(zhǔn)方法論，從第2階段起，每個(gè)階段都依賴于上一階段的結(jié)論，但6個(gè)階段的順序可以改變。尤其是商業(yè)理解和數(shù)據(jù)理解，數(shù)據(jù)準(zhǔn)備和建模可能經(jīng)常出現(xiàn)反復(fù)循環(huán)。決定是否可以進(jìn)入下一階段的原則是對(duì)達(dá)到最初業(yè)務(wù)目標(biāo)的判斷，如果業(yè)務(wù)目標(biāo)未達(dá)到，就要考慮是數(shù)據(jù)不充分，還是算法需要調(diào)整等問題。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型：CRISP-DM數(shù)據(jù)挖掘的主要任務(wù)1.51.5數(shù)據(jù)挖掘的主要任務(wù)一般而言，數(shù)據(jù)挖掘任務(wù)分為描述性任務(wù)和預(yù)測(cè)性任務(wù)。描述性任務(wù)是探查性的，用于刻畫數(shù)據(jù)中的一般性質(zhì)，目標(biāo)是以更易理解的方式概括描述隱藏在數(shù)據(jù)背后的復(fù)雜現(xiàn)象或狀態(tài)。數(shù)據(jù)常與類或概念相關(guān)聯(lián)，用匯總的、簡(jiǎn)潔的、精確的表達(dá)方式描述每個(gè)類和概念有助于決策，描述方式可以是在數(shù)據(jù)庫(kù)上執(zhí)行SQL查詢或輸出餅圖、條形圖、曲線和多維表（如交叉表）等，所描述數(shù)據(jù)中的潛在聯(lián)系的模式可能涉及相關(guān)、趨勢(shì)、聚類、軌跡和異常等，例如根據(jù)銷售交易數(shù)據(jù)找出產(chǎn)品間的關(guān)聯(lián)以決定促銷的產(chǎn)品組合等。預(yù)測(cè)性任務(wù)基于歷史數(shù)據(jù)，對(duì)數(shù)據(jù)中的規(guī)律進(jìn)行歸納從而建立模型，目標(biāo)是根據(jù)一些屬性（自變量）的值來(lái)預(yù)測(cè)特定屬性（目標(biāo)變量）的值，例如預(yù)估產(chǎn)品在未來(lái)一個(gè)季度的銷售量，判斷某信用卡持有人是否存在違約風(fēng)險(xiǎn)等。描述性任務(wù)和預(yù)測(cè)任務(wù)1.5.1分類與回歸從功能來(lái)講，數(shù)據(jù)挖掘任務(wù)有分類、回歸、聚類、關(guān)聯(lián)分析、異常檢測(cè)等。分類與回歸均為預(yù)測(cè)性建模任務(wù)。分類是這樣一個(gè)過程：它從明確定義的類標(biāo)號(hào)已知的數(shù)據(jù)集中歸納出區(qū)分樣本類的概化模型，以便能夠使用該模型預(yù)測(cè)類標(biāo)號(hào)未知的樣本的類標(biāo)號(hào)。分類中的類標(biāo)號(hào)（即目標(biāo)變量的取值）是離散的，對(duì)未知樣本預(yù)測(cè)的類是預(yù)先定義好的類中的一個(gè)。導(dǎo)出的模型可用多種形式表示：決策樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)、數(shù)學(xué)公式等。什么是分類1.5.1分類與回歸回歸用于目標(biāo)變量取連續(xù)值，且所有自變量屬性值都是數(shù)值時(shí)建立函數(shù)模型，以便能夠利用該模型預(yù)測(cè)缺失的或難以獲得的目標(biāo)變量的值。線性回歸，利用自變量屬性的線性組合來(lái)表示目標(biāo)變量，通過在訓(xùn)練數(shù)據(jù)集中基于均方誤差最小化學(xué)習(xí)到權(quán)值，從而獲得線性回歸預(yù)測(cè)模型。如果某屬性為分類型的，且屬性值間存在序（order）關(guān)系，則可通過連續(xù)化將其轉(zhuǎn)化為連續(xù)值，例如二值屬性“身高”的取值“高”“矮”可轉(zhuǎn)化為“1.0”“0.0”，三值屬性“高度”的取值“高”“中”“低”可轉(zhuǎn)化為“1.0”“0.5”“0.0”。如果屬性值間不存在序關(guān)系，假設(shè)有k個(gè)屬性值，則通常轉(zhuǎn)化為k維向量，例如屬性“瓜類”的取值“西瓜”“籽瓜”“哈密瓜”可轉(zhuǎn)化為(0,0,1),(0,1,0),(1,0,0)。值得注意的是，若將無(wú)序?qū)傩赃B續(xù)化，則會(huì)不恰當(dāng)?shù)匾胄蜿P(guān)系，對(duì)后續(xù)數(shù)據(jù)處理如距離計(jì)算造成誤導(dǎo)。例1.1，例1.2什么是回歸1.5.2聚類分析聚類分析在學(xué)習(xí)過程中無(wú)預(yù)定義的類標(biāo)號(hào)，它是通過相似性對(duì)輸入樣本自動(dòng)形成“簇（cluster）”或緊密相關(guān)的組群來(lái)捕獲數(shù)據(jù)中的自然結(jié)構(gòu)的。聚類的原則是最大化簇內(nèi)相似性、最小化簇間相似性。對(duì)象簇這樣形成：相比之下，在同一個(gè)簇中的對(duì)象之間具有很高的相似性，而不同簇中的對(duì)象之間具有很高的相異性。簇是否體現(xiàn)數(shù)據(jù)中的自然結(jié)構(gòu)，取決于聚類系統(tǒng)所采用的顯式或隱式的準(zhǔn)則。聚類所形成的每個(gè)簇可看成一個(gè)對(duì)象類，意味著類似的事件組織在一起每個(gè)簇可以推導(dǎo)出規(guī)則。聚類與分類的不同：聚類沒有預(yù)先定義好類別?？梢允褂镁垲悓?duì)無(wú)標(biāo)記類的數(shù)據(jù)產(chǎn)生數(shù)據(jù)組群的類標(biāo)號(hào)。例1.3什么是聚類分析1.5.3關(guān)聯(lián)分析關(guān)聯(lián)分析用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系.所發(fā)現(xiàn)的模式表示為關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集。關(guān)聯(lián)分析也被稱為“購(gòu)物籃分析”。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的搜索空間是指數(shù)規(guī)模的，關(guān)聯(lián)分析的目標(biāo)是以有效的方法提取最有趣的模式。一個(gè)例子：“98%的購(gòu)買輪胎和汽車配件的顧客也得到汽車服務(wù)”，找出該規(guī)則對(duì)交叉銷售和配送服務(wù)有價(jià)值。關(guān)聯(lián)分析的應(yīng)用：生物信息學(xué)中找出具有相關(guān)功能的基因組；醫(yī)療診斷中挖掘可能導(dǎo)致某種疾病的因素與該疾病發(fā)生與診斷之間的關(guān)聯(lián)關(guān)系；網(wǎng)頁(yè)挖掘中識(shí)別用戶一起訪問的Web頁(yè)面；地球氣候系統(tǒng)中理解不同元素之間的聯(lián)系等。例1.4什么是關(guān)聯(lián)分析1.5.4異常檢測(cè)一個(gè)數(shù)據(jù)集中，與絕大多數(shù)數(shù)據(jù)的一般行為或模式顯著不同的數(shù)據(jù)對(duì)象被稱為異常點(diǎn)，也稱為離群點(diǎn)或孤立點(diǎn)。異常也被定義為遠(yuǎn)離其他觀測(cè)數(shù)據(jù)，被疑為不同機(jī)制產(chǎn)生的觀測(cè)數(shù)據(jù)。在假定數(shù)據(jù)分布或概率模型的情況下，可以使用統(tǒng)計(jì)檢驗(yàn)來(lái)檢測(cè)異常點(diǎn)。使用距離度量時(shí)，可以將遠(yuǎn)離任何簇的數(shù)據(jù)對(duì)象視為異常點(diǎn)；基于密度的方法也可以識(shí)別局部區(qū)域的異常點(diǎn)，盡管從全局統(tǒng)計(jì)分析的角度來(lái)看，這些局部異常點(diǎn)可能是正常的。異常檢測(cè)算法的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn)。一個(gè)好的異常檢測(cè)算法應(yīng)該具有高檢測(cè)率和低誤報(bào)率。當(dāng)數(shù)據(jù)挖掘應(yīng)用是發(fā)現(xiàn)數(shù)據(jù)對(duì)象的一般行為模式時(shí)，可能將異常點(diǎn)視為噪聲或偏差而丟棄，但在關(guān)注數(shù)據(jù)非一般模式的應(yīng)用中，異常事件比正常事件更令人感興趣。例1.5什么是異常檢測(cè)大數(shù)據(jù)挖掘的工具與技術(shù)1.61.6.1PythonPython由荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究中心GuidovanRossum于1989年設(shè)計(jì)發(fā)明。Python代碼易閱讀、易維護(hù)；免費(fèi)、開源，被移植到很多平臺(tái)上，例如Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2，以及Google基于Linux開發(fā)的Android平臺(tái)等支持面向過程編程，也支持面向?qū)ο缶幊獭＞哂锌蓴U(kuò)展性、可擴(kuò)充性和可嵌入性。為所有主要商業(yè)數(shù)據(jù)庫(kù)提供了接口，為大型程序提供了更好的結(jié)構(gòu)和支持。Python有豐富的標(biāo)準(zhǔn)庫(kù)和擴(kuò)展庫(kù)，可以處理各類工作，完成各種高級(jí)任務(wù)。NumPy提供快速數(shù)組處理、SciPy提供數(shù)值運(yùn)算功能，Matplotlib提供繪圖功能；機(jī)器學(xué)習(xí)庫(kù)Scikit-Learn為用戶提供各種機(jī)器學(xué)習(xí)的算法接口，使用戶可以簡(jiǎn)單、高效地進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。版本不斷更新，不斷添加新功能，Python逐漸被用于獨(dú)立的、大型項(xiàng)目的開發(fā)。Python簡(jiǎn)介1.6.2HadoopHadoop是開源社區(qū)Apache的，基于廉價(jià)商業(yè)硬件集群和開放標(biāo)準(zhǔn)的，分布式數(shù)據(jù)存儲(chǔ)及處理平臺(tái)。是首選的大數(shù)據(jù)分析工具。Hadoop具有高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性、計(jì)算性能和低成本等優(yōu)勢(shì)，支持多種編程語(yǔ)言，擅長(zhǎng)存儲(chǔ)大量的半結(jié)構(gòu)化數(shù)據(jù)集，數(shù)據(jù)可以隨機(jī)存放，一個(gè)磁盤的失敗并不會(huì)造成數(shù)據(jù)丟失。Hadoop擅長(zhǎng)分布式計(jì)算，可快速地跨多臺(tái)機(jī)器處理PB量級(jí)的大型數(shù)據(jù)集合。Hadoop常部署在低成本的Intel/Linux硬件平臺(tái)上，由多臺(tái)裝有Intelx86處理器的服務(wù)器或PC（個(gè)人計(jì)算機(jī)）通過高速局域網(wǎng)構(gòu)成一個(gè)計(jì)算集群，在各個(gè)節(jié)點(diǎn)上運(yùn)行Linux操作系統(tǒng)。Hadoop簡(jiǎn)介1.6.2HadoopHadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成員組成，最核心部分是HDFS和MapReduce并行計(jì)算編程模型。HDFS為海量數(shù)據(jù)提供存儲(chǔ)功能，MapReduce計(jì)算引擎在HDFS的上一層，用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。采用分而治之的思想：將大數(shù)據(jù)集劃分為小數(shù)據(jù)集，將小數(shù)據(jù)集劃分為更小數(shù)據(jù)集，將更小數(shù)據(jù)集分發(fā)到集群節(jié)點(diǎn)上，以并行方式完成計(jì)算處理，然后再將計(jì)算結(jié)果遞歸合并，得到最終的計(jì)算結(jié)果。多節(jié)點(diǎn)計(jì)算所涉及的任務(wù)調(diào)度、負(fù)載均衡、容錯(cuò)處理等都由MapReduce框架完成。HDFS和MapReduce并行計(jì)算編程模型構(gòu)成了大數(shù)據(jù)計(jì)算平臺(tái)Hadoop的兩個(gè)核心功能模塊，它們提供了在普通商業(yè)集群上完成大數(shù)據(jù)集計(jì)算處理的能力。Hadoop簡(jiǎn)介1.6.3SparkSpark是開源大數(shù)據(jù)處理框架，最初由加州大學(xué)伯克利分校的AMPLab開發(fā)。Spark提供了一種快速、通用且易于使用的計(jì)算模型，可以處理各種類型的大規(guī)模數(shù)據(jù)，包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。核心特性是其內(nèi)存計(jì)算能力和彈性分布式數(shù)據(jù)集（簡(jiǎn)稱RDD）。RDD是Spark的主要數(shù)據(jù)抽象，它是一個(gè)可分區(qū)、可并行處理和可容錯(cuò)的數(shù)據(jù)集合。RDD既可以從磁盤讀取數(shù)據(jù)，也可以通過轉(zhuǎn)換操作從其他RDD中獲取，還可以在內(nèi)存中進(jìn)行持久化和緩存。提供了豐富的API，支持各種數(shù)據(jù)處理操作，如過濾、映射、聚合、排序、連接等，提供了豐富的高級(jí)庫(kù)和工具，用于處理圖形計(jì)算、機(jī)器學(xué)習(xí)、流處理和SQL查詢等。S架構(gòu)基于主-從模式，其中一個(gè)主節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)任務(wù)和資源管理，多個(gè)工作節(jié)點(diǎn)（從節(jié)點(diǎn)）執(zhí)行具體的計(jì)算任務(wù)。還支持在分布式環(huán)境中運(yùn)行，并提供了內(nèi)置的容錯(cuò)機(jī)制，以保證節(jié)點(diǎn)故障時(shí)數(shù)據(jù)的可靠性和計(jì)算的持續(xù)性。Spark簡(jiǎn)介大數(shù)據(jù)挖掘的應(yīng)用1.71.7.1大數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用金融行業(yè)使用數(shù)據(jù)挖掘較早。隨著金融領(lǐng)域信息化的迅速發(fā)展，銀行和金融機(jī)構(gòu)在交易、信貸、投資、儲(chǔ)存等服務(wù)業(yè)務(wù)中產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)通常比較完整、可靠、規(guī)范，并具有較高的質(zhì)量，極大地方便了數(shù)據(jù)挖掘的成功應(yīng)用。對(duì)大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理，提取有價(jià)值的信息，有助于企業(yè)進(jìn)行商業(yè)決策。匯豐、花旗和瑞士銀行等均是數(shù)據(jù)挖掘技術(shù)應(yīng)用的先行者。數(shù)據(jù)挖掘可應(yīng)用于貸款償還預(yù)測(cè)、客戶信用評(píng)價(jià)和交叉銷售等。金融行業(yè)是數(shù)據(jù)挖掘的先行者1.7.1數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用與貸款償還風(fēng)險(xiǎn)有關(guān)的因素：貸款金額、貸款率、貸款期限、借款方的負(fù)債率、償還收入比、收入水平、受教育程度、年齡、職業(yè)、居住地區(qū)、信用歷史等。數(shù)據(jù)挖掘可幫助金融機(jī)構(gòu)識(shí)別影響貸款風(fēng)險(xiǎn)的重要因素和非重要因素。對(duì)歷史數(shù)據(jù)建立分類模型預(yù)測(cè)貸款違約，制定貸款發(fā)放政策，將貸款發(fā)放給低風(fēng)險(xiǎn)借款者。使用信用評(píng)分對(duì)貸款申請(qǐng)者打分，產(chǎn)生優(yōu)質(zhì)與否的評(píng)判。信用評(píng)分根據(jù)客戶的歷史信用資料，構(gòu)建信用評(píng)分模型，得到不同等級(jí)的信用分?jǐn)?shù)。授信者根據(jù)客戶的信用分?jǐn)?shù)分析客戶按時(shí)還款的可能性，決定是否授信以及授信的額度和利率，以便保證還款等業(yè)務(wù)的安全性。信用評(píng)分模型構(gòu)建：確定業(yè)務(wù)目標(biāo)、識(shí)別數(shù)據(jù)源、收集數(shù)據(jù)、選擇數(shù)據(jù)、數(shù)據(jù)質(zhì)量的審核、數(shù)據(jù)的轉(zhuǎn)換、模型的建立與評(píng)估、結(jié)果的解釋、決策建議和應(yīng)用部署等。風(fēng)險(xiǎn)控制與信用評(píng)分1.7.1數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用當(dāng)客戶來(lái)銀行尋求一項(xiàng)服務(wù)時(shí)，銀行在未來(lái)某個(gè)時(shí)間點(diǎn)上滿足客戶其他需求的能力是建立在預(yù)先存在的關(guān)系的基礎(chǔ)上。當(dāng)銀行交叉銷售處于最佳狀態(tài)時(shí)，銀行便與現(xiàn)有客戶建立了良好的互信關(guān)系。銀行交叉銷售典型例子：擁有支票或儲(chǔ)蓄賬戶的客戶選擇該銀行的其它金融服務(wù)。例如，銀行向有支票賬戶或儲(chǔ)蓄賬戶的客戶提供汽車貸款服務(wù)?？蛻粝蜚y行尋求汽車貸款，而不是利用經(jīng)銷商融資購(gòu)買新車。當(dāng)銀行能夠滿足客戶的需求，并提供優(yōu)于經(jīng)銷商融資的利率時(shí)，客戶便以較低的個(gè)人成本獲得融資，而銀行也能從中獲益。銀行有大量客戶交易信息，通過關(guān)聯(lián)分析可以找出數(shù)據(jù)中隱藏的關(guān)聯(lián)關(guān)系，預(yù)測(cè)客戶的潛在需求，創(chuàng)造個(gè)性化的服務(wù)產(chǎn)品，并從各產(chǎn)品中找出關(guān)聯(lián)性較強(qiáng)的產(chǎn)品，對(duì)客戶進(jìn)行有針對(duì)性的關(guān)聯(lián)營(yíng)銷。還可以進(jìn)行客戶細(xì)分、客戶價(jià)值分析、客戶流失預(yù)警、新客戶開發(fā)以及新產(chǎn)品推廣，發(fā)現(xiàn)具有潛在欺詐性的事件和反洗錢活動(dòng)等；在證券市場(chǎng)，可以進(jìn)行股票市場(chǎng)走勢(shì)預(yù)測(cè)，潛力股分析，股票價(jià)格預(yù)測(cè)等。交叉銷售1.7.2數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用主題較多，這些主題主要圍繞客戶生命周期：新客戶獲取、客戶成長(zhǎng)、客戶成熟、客戶衰退和客戶離開五個(gè)階段?？蛻魞r(jià)值是指從企業(yè)角度出發(fā)，根據(jù)客戶的消費(fèi)行為等數(shù)據(jù)分析客戶能夠?yàn)槠髽I(yè)創(chuàng)造哪些價(jià)值。不同客戶或客戶群對(duì)企業(yè)的價(jià)值貢獻(xiàn)具有差異性，80%的利潤(rùn)往往來(lái)自20%的客戶。企業(yè)有必要區(qū)別對(duì)待不同客戶或客戶群，即采取不同的服務(wù)政策與管理策略，優(yōu)化配置企業(yè)有限的資源，以實(shí)現(xiàn)高產(chǎn)出。電信客戶價(jià)值分析包括：客戶當(dāng)前價(jià)值分析和客戶潛在價(jià)值分析。前者通過客戶的利潤(rùn)率和ARPU（AverageRevenuePerUser，每客戶平均收入）等指標(biāo)計(jì)算當(dāng)前客戶價(jià)值得分；后者基于客戶的人口統(tǒng)計(jì)學(xué)屬性、客戶的通話行為和計(jì)帳屬性等數(shù)據(jù)，通過建立數(shù)據(jù)挖掘模型，計(jì)算不同客戶或客戶群的潛在價(jià)值得分。結(jié)合當(dāng)前價(jià)值得分和潛在價(jià)值得分，得到客戶價(jià)值得分，可以此衡量客戶對(duì)電信企業(yè)的利潤(rùn)的貢獻(xiàn)，也是企業(yè)爭(zhēng)取客戶、保持客戶的重要依據(jù)?？蛻魞r(jià)值分析1.7.2數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用對(duì)電信企業(yè)來(lái)講，市場(chǎng)競(jìng)爭(zhēng)就是對(duì)客戶的競(jìng)爭(zhēng)。在客戶成熟期，運(yùn)營(yíng)商可基于客戶的人口統(tǒng)計(jì)學(xué)特征、消費(fèi)行為、上網(wǎng)行為和興趣愛好等方面的數(shù)據(jù)，借助分類、聚類等技術(shù)將客戶分組，使同一組的客戶之間盡可能相似，不同組的客戶之間盡可能相異。依據(jù)客戶差異化的分組可以確定企業(yè)感興趣的客戶群。針對(duì)不同客戶群的消費(fèi)特征制定不同的價(jià)格和促銷策略，推薦更具個(gè)性化的服務(wù)產(chǎn)品，來(lái)提高客戶的滿意度，降低服務(wù)成本，增加ARPU值，提高企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力?？蛻艏?xì)分1.7.3數(shù)據(jù)挖掘在醫(yī)療行業(yè)的應(yīng)用醫(yī)療相關(guān)行業(yè)的數(shù)據(jù)挖掘應(yīng)用涉及醫(yī)院、藥企及研發(fā)機(jī)構(gòu)、政府部門及保險(xiǎn)公司等。醫(yī)院的大數(shù)據(jù)應(yīng)用包括臨床數(shù)據(jù)對(duì)比、臨床決策支持、遠(yuǎn)程病人數(shù)據(jù)分析、就診行為分析以及醫(yī)院管理決策等。藥品生產(chǎn)企業(yè)及研發(fā)機(jī)構(gòu)的大數(shù)據(jù)應(yīng)用包括藥物研發(fā)、基因測(cè)序和基本藥物臨床應(yīng)用分析等。政府部門及保險(xiǎn)公司的大數(shù)據(jù)應(yīng)用包括醫(yī)療保險(xiǎn)費(fèi)用分析、實(shí)時(shí)統(tǒng)計(jì)分析以及“新農(nóng)合”基金數(shù)據(jù)分析等。醫(yī)療健康數(shù)據(jù)包含：移動(dòng)端個(gè)人健康數(shù)據(jù)、醫(yī)院臨床數(shù)據(jù)、基因數(shù)據(jù)以及疾病預(yù)防控制的流調(diào)數(shù)據(jù)等。多來(lái)源數(shù)據(jù)融合可為個(gè)人健康規(guī)劃、疾病防治以及國(guó)家衛(wèi)生策略提供更好地進(jìn)行科學(xué)決策的數(shù)據(jù)基礎(chǔ)。一些醫(yī)院擁有大量的以電子病歷為核心的臨床數(shù)據(jù)，記錄了病人的疾病、診斷及治療等信息，對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘，可輔助醫(yī)生進(jìn)行臨床科研與臨床診療。基于數(shù)據(jù)挖掘建立的疾病早期預(yù)警模型，有助于疾病的早期診斷、預(yù)警和監(jiān)護(hù)，也有利于醫(yī)療機(jī)構(gòu)采取預(yù)防和控制措施，減少疾病惡化及并發(fā)癥的發(fā)生。應(yīng)用主題1.7.4社會(huì)網(wǎng)絡(luò)分析社交平臺(tái)上個(gè)體之間的關(guān)系隱含在數(shù)據(jù)中，這種關(guān)系包含了豐富的信息。社會(huì)網(wǎng)絡(luò)是由圖表示的異構(gòu)多關(guān)系數(shù)據(jù)集就是，其中節(jié)點(diǎn)表示對(duì)象，代表人或組織等，邊表示對(duì)象間的聯(lián)系或相互依賴的鏈接，代表朋友關(guān)系、共同興趣或合作活動(dòng)等。社會(huì)網(wǎng)絡(luò)可以是科學(xué)家的合著和引用關(guān)系網(wǎng)絡(luò)、消費(fèi)者網(wǎng)絡(luò)、公司內(nèi)的信息交換、朋友關(guān)系，也可以是萬(wàn)維網(wǎng)、電力網(wǎng)、電話交互網(wǎng)等。社會(huì)網(wǎng)絡(luò)分析旨在研究一組行動(dòng)者之間的關(guān)系。行動(dòng)者可以是人、社區(qū)、群體、組織、國(guó)家等。進(jìn)行社會(huì)網(wǎng)絡(luò)分析需要用到數(shù)據(jù)挖掘技術(shù)。關(guān)系模式反映的現(xiàn)象是分析的焦點(diǎn)，例如：從社會(huì)網(wǎng)絡(luò)角度出發(fā)，人在社會(huì)環(huán)境中的相互作用可表達(dá)為基于關(guān)系的一種模式或規(guī)則，這些模式或規(guī)則反映了社會(huì)結(jié)構(gòu)。例如：Web本質(zhì)上是一個(gè)虛擬社會(huì)關(guān)系網(wǎng)，每個(gè)網(wǎng)頁(yè)是一個(gè)行動(dòng)者，每個(gè)超鏈接是一個(gè)關(guān)系，在Web環(huán)境下進(jìn)行社會(huì)網(wǎng)絡(luò)分析，可挖掘Web用戶行為模式，并以此為依據(jù)改進(jìn)諸如推薦、信息檢索、網(wǎng)絡(luò)輿情監(jiān)測(cè)等系統(tǒng)的應(yīng)用效果，并提升用戶體驗(yàn)。在使用敏感信息時(shí)，數(shù)據(jù)挖掘人員有義務(wù)考慮法律層面和道德層面的問題，如是否侵犯隱私、是否將客戶推向困境等。應(yīng)用主題1.7.5推薦系統(tǒng)推薦系統(tǒng)是一種信息過濾系統(tǒng)，用于預(yù)測(cè)用戶對(duì)物品的“評(píng)分”或“偏好”，并據(jù)此生成物品的推薦列表，為用戶提供個(gè)性化的信息服務(wù)。推薦系統(tǒng)的核心是推薦技術(shù)和算法，涵蓋分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及時(shí)間序列分析等。推薦系統(tǒng)對(duì)用戶與某類物品之間的聯(lián)系建模。比如利用推薦系統(tǒng)來(lái)告訴用戶他們可能會(huì)喜歡的書籍、服裝、電影、音樂、新聞等。如果推薦的準(zhǔn)確性高，就能吸引更多的用戶持續(xù)使用相應(yīng)的服務(wù)。推薦系統(tǒng)通過研究用戶的興趣偏好進(jìn)行個(gè)性化計(jì)算，發(fā)現(xiàn)用戶的興趣點(diǎn)，從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。一個(gè)好的推薦系統(tǒng)不僅能為用戶提供個(gè)性化的服務(wù)，還能和用戶建立密切關(guān)系，使用戶對(duì)推薦產(chǎn)生依賴。亞馬遜，全球最大的電商平臺(tái)之一，其成功不僅在于豐富的商品和有競(jìng)爭(zhēng)力的價(jià)格，還在于其卓越的個(gè)性化推薦和營(yíng)銷策略。推薦系統(tǒng)已廣泛應(yīng)用于很多行業(yè)。應(yīng)用主題參考文獻(xiàn)[1](英)ViktorMayer-Sch?nberger,Ke

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章緒論