大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第1頁(yè)
大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第2頁(yè)
大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第3頁(yè)
大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第4頁(yè)
大數(shù)據(jù)挖掘?qū)д撆c案例課件-第1章 緒論_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章緒論第2章數(shù)據(jù)分析與可視化技術(shù)第3章認(rèn)識(shí)數(shù)據(jù)第4章數(shù)據(jù)預(yù)處理第5章分類概念與方法第6章關(guān)聯(lián)分析概念與方法第7章聚類分析概念與方法第8章大數(shù)據(jù)挖掘關(guān)鍵技術(shù)第9章案例分析第1章緒論大數(shù)據(jù)挖掘?qū)д撆c案例學(xué)習(xí)目標(biāo)/Target了解大數(shù)據(jù)的概念與特征,了解大數(shù)據(jù)挖掘的過程模型了解大數(shù)據(jù)挖掘的工具與技術(shù),了解大數(shù)據(jù)挖掘的應(yīng)用了解數(shù)據(jù)科學(xué)的產(chǎn)生與興起,了解數(shù)據(jù)科學(xué)工作者應(yīng)具備的基礎(chǔ)和技能引言/Introduction國(guó)際權(quán)威機(jī)構(gòu)Statista的統(tǒng)計(jì)和預(yù)測(cè)顯示,2019年全球數(shù)據(jù)量達(dá)到41ZB,2020年達(dá)到47ZB,2025則增長(zhǎng)到175ZB,而到2035年,這一數(shù)字將達(dá)到2142ZB。大數(shù)據(jù)已持續(xù)引起人們生活、工作和思維模式的大變革。人們的注意力已轉(zhuǎn)移到尋找大數(shù)據(jù)使用的真正價(jià)值上。數(shù)據(jù)的爆炸式增長(zhǎng),對(duì)數(shù)據(jù)技術(shù)提出了更高的要求。目錄/Contents010203數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)家大數(shù)據(jù)的概念和特征大數(shù)據(jù)的主要來(lái)源0405大數(shù)據(jù)挖掘的概念和流程數(shù)據(jù)挖掘的主要任務(wù)目錄/Contents0607大數(shù)據(jù)挖掘的工具與技術(shù)大數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.11.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1962年,美國(guó)數(shù)學(xué)家JohnW.Tukey在《數(shù)理統(tǒng)計(jì)年鑒》上發(fā)表題為“數(shù)據(jù)分析的未來(lái)”的論文,為未來(lái)數(shù)據(jù)科學(xué)的發(fā)展奠定了基礎(chǔ)。1966年,丹麥計(jì)算機(jī)科學(xué)家PeterNaur發(fā)明了“數(shù)據(jù)學(xué)(Datalogy)”。1974年出版《計(jì)算機(jī)方法簡(jiǎn)明概述》,首次使用“數(shù)據(jù)科學(xué)”一詞,將數(shù)據(jù)科學(xué)定義為“處理數(shù)據(jù)的科學(xué)”。1977年,JohnW.Tukey出版著作《探索性數(shù)據(jù)分析》,提出:探索性數(shù)據(jù)分析和論證性數(shù)據(jù)分析能夠且應(yīng)該并駕齊驅(qū)。1989年,GregoryPiatetsky-Shapiro提出“知識(shí)發(fā)現(xiàn)”和“數(shù)據(jù)挖掘”,組織并主持了第一屆“數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases,KDD)”研討會(huì)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1991年,Piatetsky-Shapiro和Frawley等人出版論文合集《數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)》。1993年,JohnChambers發(fā)表了題為“GreaterorLesserStatistics:AChoiceforFutureResearch”的論文,呼吁統(tǒng)計(jì)學(xué)領(lǐng)域?qū)鹘y(tǒng)統(tǒng)計(jì)學(xué)進(jìn)行改革。文中指出傳統(tǒng)統(tǒng)計(jì)學(xué)在未來(lái)的研究中將面臨兩種選擇:(1)“更專有(Lesser)”。以數(shù)學(xué)技巧為主導(dǎo),專注于傳統(tǒng)課題和數(shù)學(xué)本身,以學(xué)術(shù)研究為主,與其他相關(guān)學(xué)科交流較少;(2)“更包容”(Greater)。從數(shù)據(jù)中學(xué)習(xí),兼收并蓄,以應(yīng)用為主,與其他相關(guān)學(xué)科交流頻繁。Chambers指出更包容雖然充滿挑戰(zhàn),但會(huì)帶來(lái)更多的機(jī)遇;而更專有則有可能使傳統(tǒng)統(tǒng)計(jì)學(xué)研究變得越來(lái)越邊緣化。Chambers呼吁要打破傳統(tǒng)統(tǒng)計(jì)學(xué)的邊界,更多地專注于數(shù)據(jù)本身,正視數(shù)據(jù)分析本質(zhì)上是一種基于經(jīng)驗(yàn)的科學(xué)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1989年至1994年召開4次KDD國(guó)際研討會(huì)。1995年,數(shù)據(jù)挖掘界舉辦第一屆“知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘”國(guó)際學(xué)術(shù)會(huì)議。1996年,國(guó)際分類協(xié)會(huì)聯(lián)盟在日本神戶召開的第5次國(guó)際會(huì)議上,首次正式使用“數(shù)據(jù)科學(xué)”術(shù)語(yǔ),并將其納入會(huì)議標(biāo)題。會(huì)后出版會(huì)議論文選集《數(shù)據(jù)科學(xué),分類和相關(guān)方法》,涵蓋了不斷發(fā)展的數(shù)據(jù)科學(xué)領(lǐng)域中出現(xiàn)的廣泛主題和觀點(diǎn),包括與數(shù)據(jù)收集、分類、聚類、探索性和多元數(shù)據(jù)分析,以及發(fā)現(xiàn)和尋求知識(shí)有關(guān)的領(lǐng)域的理論和方法方面的進(jìn)步。同年,UsamaM.Fayyad、GregoryPiatetsky-Shapiro、PadhraicSmyth和RamasamyUthurusamy出版《知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘的進(jìn)展》,匯集了知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的研究成果。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起1997年,應(yīng)用統(tǒng)計(jì)學(xué)家C.F.JeffWu在“統(tǒng)計(jì)學(xué)=數(shù)據(jù)科學(xué)?(Statistics=DataScience?)”的演講中,將當(dāng)時(shí)定義的“統(tǒng)計(jì)學(xué)工作內(nèi)容”描述為:數(shù)據(jù)收集、數(shù)據(jù)建模與分析、洞察與決策三部曲,并提出了他對(duì)未來(lái)統(tǒng)計(jì)學(xué)發(fā)展方向的展望,呼吁將統(tǒng)計(jì)學(xué)重新命名為數(shù)據(jù)科學(xué)。1998年,ACM-SIGKDD成立,1999年以來(lái)一直組織SIGKDD國(guó)際會(huì)議。目前,SIGKDD是數(shù)據(jù)挖掘研究領(lǐng)域的頂級(jí)會(huì)議。2001年,美國(guó)統(tǒng)計(jì)學(xué)教授WilliamS.Cleveland在《國(guó)際統(tǒng)計(jì)評(píng)論》上發(fā)表文章“數(shù)據(jù)科學(xué):一種拓展統(tǒng)計(jì)學(xué)技術(shù)領(lǐng)域的行動(dòng)”,首次將數(shù)據(jù)科學(xué)作為一個(gè)單獨(dú)的學(xué)科,并把數(shù)據(jù)科學(xué)定義為統(tǒng)計(jì)學(xué)領(lǐng)域擴(kuò)展到以數(shù)據(jù)作為研究對(duì)象,與信息和計(jì)算機(jī)科學(xué)技術(shù)相結(jié)合的學(xué)科,奠定了數(shù)據(jù)科學(xué)的理論基礎(chǔ)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2002年,數(shù)據(jù)科學(xué)與技術(shù)委員會(huì)(CODATA)創(chuàng)辦了《數(shù)據(jù)科學(xué)期刊》,聚焦于數(shù)據(jù)系統(tǒng)描述及其網(wǎng)絡(luò)出版物、應(yīng)用和法律問題等。2003年,哥倫比亞大學(xué)創(chuàng)辦《數(shù)據(jù)科學(xué)期刊》,為致力于統(tǒng)計(jì)學(xué)方法應(yīng)用和定量研究的數(shù)據(jù)工作者提供發(fā)表意見和交流思想的平臺(tái)。2007年,圖靈獎(jiǎng)獲得者JimGray在NRC-CSTB的會(huì)議上,發(fā)表了著名演講——“科學(xué)方法的一次變革”,他將數(shù)據(jù)科學(xué)視為科學(xué)的“第四范式”。認(rèn)為:人類科學(xué)研究活動(dòng)已經(jīng)經(jīng)歷過三種不同范式,分別是描述自然現(xiàn)象的“實(shí)驗(yàn)科學(xué)”、以模型和歸納為特征的“理論科學(xué)”和以模擬與仿真為特征的“計(jì)算科學(xué)”,而且科學(xué)探索正在從“計(jì)算科學(xué)”轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)”,即第四范式(也稱為eScience)。數(shù)據(jù)科學(xué)1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2008年,建立LinkedIn數(shù)據(jù)團(tuán)隊(duì)的主管DhanurjayPatil和領(lǐng)導(dǎo)Facebook數(shù)據(jù)團(tuán)隊(duì)的JeffHammerbacher提出了“數(shù)據(jù)科學(xué)家”術(shù)語(yǔ)。2009年,數(shù)據(jù)科學(xué)家MikeDriscoll在題為“數(shù)據(jù)極客的三項(xiàng)迷人技能”的文章中,闡述了數(shù)據(jù)科學(xué)家的重要性。2009年,微軟研究院副總裁Tony

Hey為已故JimGray發(fā)行了以數(shù)據(jù)科學(xué)為主題的論文集《第四范式:數(shù)據(jù)密集型發(fā)現(xiàn)》。2010年,DrewConway提出數(shù)據(jù)科學(xué)維恩圖,首次探討數(shù)據(jù)科學(xué)的學(xué)科定位問題。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2013年,美國(guó)計(jì)算機(jī)科學(xué)家ChrisA.Mattmann在《自然》發(fā)表題為“計(jì)算——數(shù)據(jù)科學(xué)的愿景”的評(píng)論文章,針對(duì)大數(shù)據(jù)進(jìn)行了具體闡述(未區(qū)分?jǐn)?shù)據(jù)科學(xué)與大數(shù)據(jù)),解釋了大數(shù)據(jù)的復(fù)雜性和挑戰(zhàn),且認(rèn)為需要同時(shí)熟悉數(shù)據(jù)科學(xué)和先進(jìn)計(jì)算技術(shù)的數(shù)據(jù)科學(xué)家。2013年,紐約大學(xué)VasantDhar教授在《美國(guó)計(jì)算機(jī)學(xué)會(huì)通訊》上發(fā)表題為“數(shù)據(jù)科學(xué)與預(yù)測(cè)”的論文,認(rèn)為數(shù)據(jù)科學(xué)不同于統(tǒng)計(jì)和其他現(xiàn)有學(xué)科。同時(shí)提出了3個(gè)主要觀點(diǎn):(1)數(shù)據(jù)科學(xué)是從數(shù)據(jù)中歸納提取知識(shí)的研究;(2)評(píng)估新知識(shí)是否可用于決策的一個(gè)共同要求是其預(yù)測(cè)能力,而不僅僅是其解釋過去的能力;(3)數(shù)據(jù)科學(xué)家需要涵蓋數(shù)學(xué)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)的綜合技能,并且具有對(duì)提出問題技巧的深刻理解并設(shè)計(jì)出有效的解決方案的能力。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起2013年,紐約大學(xué)FosterProvost與TomFawcett在《大數(shù)據(jù)》上發(fā)表題為“數(shù)據(jù)科學(xué)及其與大數(shù)據(jù)和數(shù)據(jù)驅(qū)動(dòng)決策的關(guān)系”的論文,將數(shù)據(jù)科學(xué)定性為數(shù)據(jù)工程和處理技術(shù)與“數(shù)據(jù)驅(qū)動(dòng)的決策”之間的接口。對(duì)數(shù)據(jù)科學(xué)這樣定義:“從較高層次上講,數(shù)據(jù)科學(xué)是一組基本原理,它們支持并指導(dǎo)從數(shù)據(jù)中提取信息和知識(shí)的原則。與數(shù)據(jù)科學(xué)最密切相關(guān)的概念可能是數(shù)據(jù)挖掘,即通過結(jié)合這些原理的技術(shù)從數(shù)據(jù)中實(shí)際提取知識(shí)”。數(shù)據(jù)科學(xué)的三個(gè)標(biāo)志性事件:(1)DhanurjayPatil和ThomasH.Davenport2012年在《哈佛商業(yè)評(píng)論》發(fā)表題為“數(shù)據(jù)科學(xué)家——21世紀(jì)最有魅力的職業(yè);(2)2012年大數(shù)據(jù)思維被首次應(yīng)用于美國(guó)總統(tǒng)大選,奧巴馬成功連任;(3)白宮2015年首次設(shè)立數(shù)據(jù)科學(xué)家崗位,聘請(qǐng)DhanurjayPatil作為白宮第一任首席數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)的技術(shù)成長(zhǎng)逐步走向穩(wěn)定上升期。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)是一個(gè)廣泛領(lǐng)域,涉及數(shù)據(jù)的收集、存儲(chǔ)、處理、分析和解釋等。數(shù)據(jù)科學(xué)家利用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和領(lǐng)域知識(shí)等多個(gè)學(xué)科的方法和技術(shù)來(lái)處理和分析數(shù)據(jù),以提取有價(jià)值的信息和洞察力。數(shù)據(jù)挖掘是數(shù)據(jù)科學(xué)的一個(gè)重要組成部分,它提供探索和分析大規(guī)模數(shù)據(jù)集的工具和技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)聯(lián),從而提供洞察力和價(jià)值。數(shù)據(jù)科學(xué)家可以使用數(shù)據(jù)挖掘技術(shù)來(lái)解決實(shí)際問題,提取有用的信息,支持決策制定過程。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)與其他學(xué)科不同:思維模式的轉(zhuǎn)變,對(duì)數(shù)據(jù)認(rèn)識(shí)的變化,指導(dǎo)思想的變化,以數(shù)據(jù)產(chǎn)品開發(fā)為主要目的等。數(shù)據(jù)科學(xué)通過系統(tǒng)研究和分析不同數(shù)據(jù)源,理解數(shù)據(jù)含義,運(yùn)用數(shù)據(jù)作為工具實(shí)現(xiàn)有效的決策制定和問題求解。數(shù)據(jù)科學(xué)的目的是促進(jìn)與數(shù)據(jù)相關(guān)的各種流程的應(yīng)用(例如數(shù)據(jù)獲取、清洗噪聲的數(shù)據(jù)預(yù)處理、數(shù)據(jù)表示、數(shù)據(jù)評(píng)估、數(shù)據(jù)分析),以及數(shù)據(jù)創(chuàng)建相關(guān)知識(shí)的運(yùn)用。數(shù)據(jù)科學(xué)的目標(biāo)是發(fā)現(xiàn)知識(shí),以幫助個(gè)人、組織機(jī)構(gòu)乃至全球?qū)用嫔线M(jìn)行科學(xué)決策。數(shù)據(jù)科學(xué)領(lǐng)域必然通過分析網(wǎng)絡(luò)日志、傳感器系統(tǒng)、事務(wù)數(shù)據(jù)生成的大數(shù)據(jù),產(chǎn)生有效的洞察并派生出新數(shù)據(jù)產(chǎn)品。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生和數(shù)據(jù)科學(xué)家的興起數(shù)據(jù)科學(xué)涉及數(shù)據(jù)的收集、存儲(chǔ)、處理、分析和解釋等方面。數(shù)據(jù)科學(xué)家利用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)和領(lǐng)域知識(shí)等多個(gè)學(xué)科的方法和技術(shù)來(lái)處理和分析數(shù)據(jù),以從中提取有價(jià)值的信息和洞察。數(shù)據(jù)挖掘是數(shù)據(jù)科學(xué)的重要組成部分,為數(shù)據(jù)科學(xué)家提供探索和分析大規(guī)模數(shù)據(jù)集的工具和技術(shù),用于發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)聯(lián)。數(shù)據(jù)科學(xué)家使用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問題,提取有用的信息,支持決策過程。數(shù)據(jù)科學(xué)與數(shù)據(jù)科學(xué)家1.1.2從事數(shù)據(jù)科學(xué)活動(dòng)的重要基礎(chǔ)和技能數(shù)據(jù)科學(xué)的基礎(chǔ)來(lái)自三方面:推理思維,計(jì)算思維和現(xiàn)實(shí)世界中事物之間的相關(guān)性。數(shù)據(jù)科學(xué)通過探索、預(yù)測(cè)和推理從龐大且多樣化的數(shù)據(jù)集中得出有用結(jié)論。探索涉及識(shí)別信息模式,主要工具是可視化和描述性統(tǒng)計(jì);預(yù)測(cè)涉及使用已知信息對(duì)希望知道的值進(jìn)行明智的猜測(cè),主要工具是機(jī)器學(xué)習(xí)和優(yōu)化;推理涉及量化預(yù)測(cè)的確定性程度,主要工具是統(tǒng)計(jì)檢驗(yàn)和模型。數(shù)據(jù)科學(xué)要求從業(yè)者具備傳統(tǒng)科學(xué)中的理論知識(shí)與實(shí)踐能力,還要具有數(shù)據(jù)科學(xué)家的3C精神——原創(chuàng)性(Creative)設(shè)計(jì)、批判性(Critical)思考和好奇性(Curious)的提問能力。數(shù)據(jù)科學(xué)家必須具備的重要技能:(1)計(jì)算機(jī)能力;(2)數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘能力。(3)數(shù)據(jù)可視化能力。(4)一些軟技能,例如,團(tuán)隊(duì)精神,溝通、交流能力,業(yè)務(wù)敏銳性,組織和解決問題的能力等。從事數(shù)據(jù)科學(xué)的基礎(chǔ)與數(shù)據(jù)科學(xué)家的技能大數(shù)據(jù)的概念、發(fā)展階段和特征1.21.2.1大數(shù)據(jù)的概念大數(shù)據(jù)的定義很多,下面是幾個(gè)具有代表性的定義。O'ReillyMedia的定義:大數(shù)據(jù)是超出傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)處理能力的數(shù)據(jù)。數(shù)據(jù)量太大,數(shù)據(jù)移動(dòng)太快或數(shù)據(jù)不符合傳統(tǒng)數(shù)據(jù)庫(kù)體系結(jié)構(gòu)的嚴(yán)格要求。為了從這些數(shù)據(jù)中獲取價(jià)值,必須選擇一種替代方法來(lái)處理它。Gartner給出的大數(shù)據(jù)定義:大數(shù)據(jù)是大容量、高速度和/或多種類型的信息資產(chǎn),它們需要經(jīng)濟(jì)高效、創(chuàng)新的信息處理形式,以增強(qiáng)洞察力、決策能力和流程自動(dòng)化McKinsey對(duì)大數(shù)據(jù)的定義:大數(shù)據(jù)是指其規(guī)模超出典型數(shù)據(jù)庫(kù)軟件工具捕獲、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。綜上,大數(shù)據(jù)是指規(guī)模巨大、復(fù)雜度高并且難以使用傳統(tǒng)數(shù)據(jù)處理工具捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)的定義1.2.2大數(shù)據(jù)的發(fā)展階段大數(shù)據(jù)的發(fā)展可分為以下三個(gè)階段:第一階段:數(shù)據(jù)分析源于數(shù)據(jù)庫(kù)管理,依賴關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)中常見的對(duì)數(shù)據(jù)的存儲(chǔ)、提取和優(yōu)化技術(shù)。數(shù)據(jù)庫(kù)管理和數(shù)據(jù)倉(cāng)庫(kù)是此階段的核心組成部分。所使用的數(shù)據(jù)庫(kù)查詢、在線分析處理和標(biāo)準(zhǔn)報(bào)告等為現(xiàn)代數(shù)據(jù)分析奠定了基礎(chǔ)。第二階段:網(wǎng)絡(luò)提供獨(dú)特的數(shù)據(jù)收集和數(shù)據(jù)分析機(jī)會(huì)。網(wǎng)絡(luò)流量和在線商店的擴(kuò)大,Yahoo!、Amazon和eBay等公司開始通過分析點(diǎn)擊率、特定IP的位置數(shù)據(jù)和搜索日志來(lái)分析客戶行為。社交媒體引起大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)。極大增強(qiáng)了從半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中提取有意義信息的工具、技術(shù)和分析方法的需求。第三階段:基于Web的非結(jié)構(gòu)化數(shù)據(jù)仍然是許多機(jī)構(gòu)在大數(shù)據(jù)和數(shù)據(jù)分析方面的主要關(guān)注點(diǎn)。隨著移動(dòng)設(shè)備的興起,從移動(dòng)設(shè)備中發(fā)現(xiàn)了檢索有價(jià)值信息的可能性,從新數(shù)據(jù)源中提取有有價(jià)值信息的競(jìng)賽開始。大數(shù)據(jù)的發(fā)展1.2.3大數(shù)據(jù)的5V特征1.容量(Volume)指數(shù)據(jù)的大小或體量。數(shù)據(jù)的大小決定數(shù)據(jù)的價(jià)值和潛在的洞察力,以及是否可以將其視為大數(shù)據(jù)。大數(shù)據(jù)所面臨的挑戰(zhàn):存儲(chǔ),以及如何識(shí)別海量數(shù)據(jù)集中的相關(guān)數(shù)據(jù)并很好地利用它們。2.速度(Velocity)指數(shù)據(jù)生成和移動(dòng)的速度。數(shù)據(jù)流的速度有助于確定數(shù)據(jù)是否屬于大數(shù)據(jù)類別。大數(shù)據(jù)以越來(lái)越快的速度生成和移動(dòng),意味著數(shù)據(jù)的采集和分析等過程必須迅速、及時(shí)。3.多樣性(Variety)指大數(shù)據(jù)包括多種不同格式和不同類型的數(shù)據(jù)。根據(jù)數(shù)據(jù)是否具有一定的模式、結(jié)構(gòu)和關(guān)系,可將數(shù)據(jù)分為三種基本類型:結(jié)構(gòu)化數(shù)據(jù):具有固定的數(shù)據(jù)模式,是一種有組織的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù):另一種形式的結(jié)構(gòu)化數(shù)據(jù),具有一定的結(jié)構(gòu)化特征,但是結(jié)構(gòu)變化大,且不遵循表格數(shù)據(jù)模型或關(guān)系數(shù)據(jù)庫(kù)的格式。非結(jié)構(gòu)化數(shù)據(jù):不遵循固定的結(jié)構(gòu)或模式,是非組織化數(shù)據(jù),不適于用二維表表示。大數(shù)據(jù)5V特征1.2.3大數(shù)據(jù)的5V特征4.真實(shí)性(Veracity)真實(shí)性也稱為準(zhǔn)確性,是數(shù)據(jù)質(zhì)量和完整性、準(zhǔn)確度及可信度的保證。許多形式的大數(shù)據(jù)的真實(shí)性很難控制,因?yàn)閿?shù)據(jù)中會(huì)存在噪聲和異常,也會(huì)存在不一致性和不確定性。由于數(shù)據(jù)往往是從多個(gè)來(lái)源收集的,因此在將其用于業(yè)務(wù)洞察之前,需要檢查其真實(shí)性。5.價(jià)值(Value)價(jià)值是大數(shù)據(jù)最重要的特征。作為物理符號(hào)的數(shù)據(jù)本身沒有用處,只有在它被轉(zhuǎn)化為有用信息時(shí)才能體現(xiàn)其價(jià)值,該價(jià)值表現(xiàn)為對(duì)決策的支持作用。大數(shù)據(jù)幾乎可以在任何商業(yè)或社會(huì)領(lǐng)域提供價(jià)值。

隨著數(shù)據(jù)量的增長(zhǎng),大數(shù)據(jù)中有意義的信息卻不是成相應(yīng)比例增長(zhǎng),即表現(xiàn)為低價(jià)值密度的特點(diǎn)。

數(shù)據(jù)挖掘是對(duì)大數(shù)據(jù)進(jìn)行分析和挖掘的理論核心。大數(shù)據(jù)5V特征大數(shù)據(jù)的主要來(lái)源1.31.3大數(shù)據(jù)的主要來(lái)源少量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù),如關(guān)系型數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)。大量人產(chǎn)生的數(shù)據(jù),如微博、微信、Twitter、Facetime、通信軟件、移動(dòng)通信APP、電子商務(wù)在線交易日志、企業(yè)應(yīng)用的相關(guān)評(píng)論等數(shù)據(jù)。巨量機(jī)器產(chǎn)生的數(shù)據(jù),如應(yīng)用服務(wù)器日志,以及各類傳感器、圖像和視頻監(jiān)控、二維碼和條形碼掃描等產(chǎn)生的數(shù)據(jù)。按產(chǎn)生數(shù)據(jù)的主體劃分1.3大數(shù)據(jù)的主要來(lái)源互聯(lián)網(wǎng)公司?;ヂ?lián)網(wǎng)公司產(chǎn)生的數(shù)據(jù)包括大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)。電信、金融、保險(xiǎn)、電力、石化系統(tǒng)。公共安全、醫(yī)療、交通領(lǐng)域。氣象、地理、政務(wù)等領(lǐng)域制造業(yè)和其他傳統(tǒng)行業(yè)。按產(chǎn)生數(shù)據(jù)的行業(yè)劃分1.3大數(shù)據(jù)的主要來(lái)源系統(tǒng)日志采集。使用海量數(shù)據(jù)采集工具進(jìn)行系統(tǒng)日志采集,如Hadoop的Chukwa、Cloudera的Flume等,這些工具均采用分布式架構(gòu),能滿足大數(shù)據(jù)日志數(shù)據(jù)采集和傳輸需求?;ヂ?lián)網(wǎng)數(shù)據(jù)采集。通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)。把數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件。支持圖片、音頻、視頻等文件或附件的采集。APP移動(dòng)端數(shù)據(jù)采集。APP是獲取用戶移動(dòng)端數(shù)據(jù)的一種有效方法。APP中的SDK(軟件開發(fā)工具包)插件可以將用戶使用APP的信息匯總給指定服務(wù)器。單個(gè)APP用戶的數(shù)據(jù)量有限,在有眾多APP及其用戶情況下,能夠獲取用戶終端數(shù)據(jù)和部分行為數(shù)據(jù)可達(dá)到數(shù)億量級(jí)。與數(shù)據(jù)服務(wù)機(jī)構(gòu)合作。數(shù)據(jù)服務(wù)機(jī)構(gòu)通常具備規(guī)范的數(shù)據(jù)共享和交易渠道??梢詮臄?shù)據(jù)服務(wù)機(jī)構(gòu)快速、明確地獲取所需要的數(shù)據(jù)。對(duì)于保密性要求較高的數(shù)據(jù)。按數(shù)據(jù)的存儲(chǔ)形式劃分1.3大數(shù)據(jù)的主要來(lái)源互聯(lián)網(wǎng)公司?;ヂ?lián)網(wǎng)公司產(chǎn)生的數(shù)據(jù)包括大量社交、游戲等領(lǐng)域積累的文本、音頻、視頻和關(guān)系類數(shù)據(jù)。電信、金融、保險(xiǎn)、電力、石化系統(tǒng)。公共安全、醫(yī)療、交通領(lǐng)域。氣象、地理、政務(wù)等領(lǐng)域制造業(yè)和其他傳統(tǒng)行業(yè)。按產(chǎn)生數(shù)據(jù)的行業(yè)劃分大數(shù)據(jù)挖掘的概念和流程1.41.4大數(shù)據(jù)挖掘的概念和流程數(shù)據(jù)挖掘的定義有好多種,下面給出常見的三種UsamaM.Fayyad給出的定義:數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)是在大型數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的和最終可理解的模式的非平凡過程。早期,將數(shù)據(jù)挖掘看作整個(gè)知識(shí)發(fā)現(xiàn)過程的一個(gè)步驟,后來(lái)兩個(gè)術(shù)語(yǔ)替換使用,即數(shù)據(jù)挖掘也稱為知識(shí)發(fā)現(xiàn)。技術(shù)上的定義:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又潛在有用的信息的過程。商業(yè)角度的定義:數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是大數(shù)據(jù)挖掘和分析的基石。數(shù)據(jù)挖掘的定義1.4大數(shù)據(jù)挖掘的概念和流程大數(shù)據(jù)挖掘和分析方法決定所獲得信息是否有價(jià)值。具有普遍性的方法和理論主要包括:可視化分析。直觀且簡(jiǎn)單明了呈現(xiàn)大數(shù)據(jù)的特點(diǎn)。是大數(shù)據(jù)分析的最基本要求。數(shù)據(jù)挖掘算法。各種數(shù)據(jù)挖掘算法基于不同的數(shù)據(jù)類型和格式,能夠更科學(xué)地呈現(xiàn)數(shù)據(jù)所具備的特點(diǎn),且能夠深入數(shù)據(jù)內(nèi)部,快速挖掘出數(shù)據(jù)中隱藏的價(jià)值。預(yù)測(cè)性分析能力。預(yù)測(cè)性分析是大數(shù)據(jù)分析最重要的應(yīng)用。從大數(shù)據(jù)中挖掘特點(diǎn)并建立模型,將新數(shù)據(jù)代入模型預(yù)測(cè)未來(lái)。語(yǔ)義引擎。大數(shù)據(jù)分析廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)。語(yǔ)義引擎可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞等分析、判斷用戶需求,實(shí)現(xiàn)更好的用戶體驗(yàn)和廣告匹配。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理是成功進(jìn)行大數(shù)據(jù)挖掘和分析的重要保證。大數(shù)據(jù)挖掘和分析方法1.4大數(shù)據(jù)挖掘的概念和流程CRISP-DM過程模型文檔的主要內(nèi)容有5個(gè)部分:概述;CRISP-DM參考模型;CRISP-DM用戶指南;CRISP-DM報(bào)告;附錄。CRISP-DM參考模型中給出一個(gè)數(shù)據(jù)挖掘項(xiàng)目的生命周期由6個(gè)階段組成:商業(yè)理解(businessunderstanding)、數(shù)據(jù)理解(dataunderstanding)、數(shù)據(jù)準(zhǔn)備(datapreparation)、建模(modeling)、評(píng)估(evaluation)和部署(deployment)。各階段間的關(guān)系及流程如右圖。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型:CRISP-DM1.4大數(shù)據(jù)挖掘的概念和流程(1)商業(yè)理解。從商業(yè)角度理解項(xiàng)目目標(biāo)和需求,然后轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義和實(shí)現(xiàn)目標(biāo)的初步規(guī)劃。具體任務(wù):確定商業(yè)目標(biāo),評(píng)析環(huán)境,確定數(shù)據(jù)挖掘目標(biāo),制定項(xiàng)目計(jì)劃等。(2)數(shù)據(jù)理解。指由最初的數(shù)據(jù)收集開始的一系列活動(dòng)。目的是熟悉數(shù)據(jù)、鑒別數(shù)據(jù)質(zhì)量,發(fā)現(xiàn)對(duì)數(shù)據(jù)的真知灼見,探索出令人感興趣的數(shù)據(jù)子集并形成對(duì)隱藏信息的假設(shè)。具體任務(wù)包括:收集原始數(shù)據(jù),描述數(shù)據(jù),探索數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)質(zhì)量。(3)數(shù)據(jù)準(zhǔn)備。包括基于最初原始數(shù)據(jù)構(gòu)建最終數(shù)據(jù)集的全部活動(dòng)。具體任務(wù):選擇數(shù)據(jù),清洗數(shù)據(jù),構(gòu)造數(shù)據(jù),整合數(shù)據(jù),格式化數(shù)據(jù)等。(4)建模。本階段需要選擇和使用各種建模技術(shù),并對(duì)模型的參數(shù)進(jìn)行調(diào)優(yōu)。具體任務(wù)包括:選擇建模技術(shù),生成測(cè)試設(shè)計(jì),生成模型,評(píng)估模型。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型:CRISP-DM1.4大數(shù)據(jù)挖掘的概念和流程(5)評(píng)價(jià)。就是對(duì)模型進(jìn)行較為全面的評(píng)價(jià),重審構(gòu)建模型的步驟以確認(rèn)能正確達(dá)到商業(yè)目的。具體任務(wù)包括評(píng)價(jià)結(jié)果,重審(審視)過程,確定下一步可能采取的措施列表等。(6)部署。部署與具體需求有關(guān),可能很簡(jiǎn)單,也可以很復(fù)雜。大多數(shù)情況下,由用戶而不是數(shù)據(jù)分析師來(lái)完成部署工作。理解前端需要完成哪些工作,以便充分利用已建好的模型,對(duì)用戶來(lái)說(shuō)很重要。具體任務(wù)包括規(guī)劃部署,規(guī)劃監(jiān)控和維護(hù),生成最終報(bào)告,回顧項(xiàng)目。CRISP-DM流程是適用于所有行業(yè)的標(biāo)準(zhǔn)方法論,從第2階段起,每個(gè)階段都依賴于上一階段的結(jié)論,但6個(gè)階段的順序可以改變。尤其是商業(yè)理解和數(shù)據(jù)理解,數(shù)據(jù)準(zhǔn)備和建模可能經(jīng)常出現(xiàn)反復(fù)循環(huán)。決定是否可以進(jìn)入下一階段的原則是對(duì)達(dá)到最初業(yè)務(wù)目標(biāo)的判斷,如果業(yè)務(wù)目標(biāo)未達(dá)到,就要考慮是數(shù)據(jù)不充分,還是算法需要調(diào)整等問題。數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程模型:CRISP-DM數(shù)據(jù)挖掘的主要任務(wù)1.51.5數(shù)據(jù)挖掘的主要任務(wù)一般而言,數(shù)據(jù)挖掘任務(wù)分為描述性任務(wù)和預(yù)測(cè)性任務(wù)。描述性任務(wù)是探查性的,用于刻畫數(shù)據(jù)中的一般性質(zhì),目標(biāo)是以更易理解的方式概括描述隱藏在數(shù)據(jù)背后的復(fù)雜現(xiàn)象或狀態(tài)。數(shù)據(jù)常與類或概念相關(guān)聯(lián),用匯總的、簡(jiǎn)潔的、精確的表達(dá)方式描述每個(gè)類和概念有助于決策,描述方式可以是在數(shù)據(jù)庫(kù)上執(zhí)行SQL查詢或輸出餅圖、條形圖、曲線和多維表(如交叉表)等,所描述數(shù)據(jù)中的潛在聯(lián)系的模式可能涉及相關(guān)、趨勢(shì)、聚類、軌跡和異常等,例如根據(jù)銷售交易數(shù)據(jù)找出產(chǎn)品間的關(guān)聯(lián)以決定促銷的產(chǎn)品組合等。預(yù)測(cè)性任務(wù)基于歷史數(shù)據(jù),對(duì)數(shù)據(jù)中的規(guī)律進(jìn)行歸納從而建立模型,目標(biāo)是根據(jù)一些屬性(自變量)的值來(lái)預(yù)測(cè)特定屬性(目標(biāo)變量)的值,例如預(yù)估產(chǎn)品在未來(lái)一個(gè)季度的銷售量,判斷某信用卡持有人是否存在違約風(fēng)險(xiǎn)等。描述性任務(wù)和預(yù)測(cè)任務(wù)1.5.1分類與回歸從功能來(lái)講,數(shù)據(jù)挖掘任務(wù)有分類、回歸、聚類、關(guān)聯(lián)分析、異常檢測(cè)等。分類與回歸均為預(yù)測(cè)性建模任務(wù)。分類是這樣一個(gè)過程:它從明確定義的類標(biāo)號(hào)已知的數(shù)據(jù)集中歸納出區(qū)分樣本類的概化模型,以便能夠使用該模型預(yù)測(cè)類標(biāo)號(hào)未知的樣本的類標(biāo)號(hào)。分類中的類標(biāo)號(hào)(即目標(biāo)變量的取值)是離散的,對(duì)未知樣本預(yù)測(cè)的類是預(yù)先定義好的類中的一個(gè)。導(dǎo)出的模型可用多種形式表示:決策樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)、數(shù)學(xué)公式等。什么是分類1.5.1分類與回歸回歸用于目標(biāo)變量取連續(xù)值,且所有自變量屬性值都是數(shù)值時(shí)建立函數(shù)模型,以便能夠利用該模型預(yù)測(cè)缺失的或難以獲得的目標(biāo)變量的值。線性回歸,利用自變量屬性的線性組合來(lái)表示目標(biāo)變量,通過在訓(xùn)練數(shù)據(jù)集中基于均方誤差最小化學(xué)習(xí)到權(quán)值,從而獲得線性回歸預(yù)測(cè)模型。如果某屬性為分類型的,且屬性值間存在序(order)關(guān)系,則可通過連續(xù)化將其轉(zhuǎn)化為連續(xù)值,例如二值屬性“身高”的取值“高”“矮”可轉(zhuǎn)化為“1.0”“0.0”,三值屬性“高度”的取值“高”“中”“低”可轉(zhuǎn)化為“1.0”“0.5”“0.0”。如果屬性值間不存在序關(guān)系,假設(shè)有k個(gè)屬性值,則通常轉(zhuǎn)化為k維向量,例如屬性“瓜類”的取值“西瓜”“籽瓜”“哈密瓜”可轉(zhuǎn)化為(0,0,1),(0,1,0),(1,0,0)。值得注意的是,若將無(wú)序?qū)傩赃B續(xù)化,則會(huì)不恰當(dāng)?shù)匾胄蜿P(guān)系,對(duì)后續(xù)數(shù)據(jù)處理如距離計(jì)算造成誤導(dǎo)。例1.1,例1.2什么是回歸1.5.2聚類分析聚類分析在學(xué)習(xí)過程中無(wú)預(yù)定義的類標(biāo)號(hào),它是通過相似性對(duì)輸入樣本自動(dòng)形成“簇(cluster)”或緊密相關(guān)的組群來(lái)捕獲數(shù)據(jù)中的自然結(jié)構(gòu)的。聚類的原則是最大化簇內(nèi)相似性、最小化簇間相似性。對(duì)象簇這樣形成:相比之下,在同一個(gè)簇中的對(duì)象之間具有很高的相似性,而不同簇中的對(duì)象之間具有很高的相異性。簇是否體現(xiàn)數(shù)據(jù)中的自然結(jié)構(gòu),取決于聚類系統(tǒng)所采用的顯式或隱式的準(zhǔn)則。聚類所形成的每個(gè)簇可看成一個(gè)對(duì)象類,意味著類似的事件組織在一起每個(gè)簇可以推導(dǎo)出規(guī)則。聚類與分類的不同:聚類沒有預(yù)先定義好類別??梢允褂镁垲悓?duì)無(wú)標(biāo)記類的數(shù)據(jù)產(chǎn)生數(shù)據(jù)組群的類標(biāo)號(hào)。例1.3什么是聚類分析1.5.3關(guān)聯(lián)分析關(guān)聯(lián)分析用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系.所發(fā)現(xiàn)的模式表示為關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集。關(guān)聯(lián)分析也被稱為“購(gòu)物籃分析”。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方法提取最有趣的模式。一個(gè)例子:“98%的購(gòu)買輪胎和汽車配件的顧客也得到汽車服務(wù)”,找出該規(guī)則對(duì)交叉銷售和配送服務(wù)有價(jià)值。關(guān)聯(lián)分析的應(yīng)用:生物信息學(xué)中找出具有相關(guān)功能的基因組;醫(yī)療診斷中挖掘可能導(dǎo)致某種疾病的因素與該疾病發(fā)生與診斷之間的關(guān)聯(lián)關(guān)系;網(wǎng)頁(yè)挖掘中識(shí)別用戶一起訪問的Web頁(yè)面;地球氣候系統(tǒng)中理解不同元素之間的聯(lián)系等。例1.4什么是關(guān)聯(lián)分析1.5.4異常檢測(cè)一個(gè)數(shù)據(jù)集中,與絕大多數(shù)數(shù)據(jù)的一般行為或模式顯著不同的數(shù)據(jù)對(duì)象被稱為異常點(diǎn),也稱為離群點(diǎn)或孤立點(diǎn)。異常也被定義為遠(yuǎn)離其他觀測(cè)數(shù)據(jù),被疑為不同機(jī)制產(chǎn)生的觀測(cè)數(shù)據(jù)。在假定數(shù)據(jù)分布或概率模型的情況下,可以使用統(tǒng)計(jì)檢驗(yàn)來(lái)檢測(cè)異常點(diǎn)。使用距離度量時(shí),可以將遠(yuǎn)離任何簇的數(shù)據(jù)對(duì)象視為異常點(diǎn);基于密度的方法也可以識(shí)別局部區(qū)域的異常點(diǎn),盡管從全局統(tǒng)計(jì)分析的角度來(lái)看,這些局部異常點(diǎn)可能是正常的。異常檢測(cè)算法的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn)。一個(gè)好的異常檢測(cè)算法應(yīng)該具有高檢測(cè)率和低誤報(bào)率。當(dāng)數(shù)據(jù)挖掘應(yīng)用是發(fā)現(xiàn)數(shù)據(jù)對(duì)象的一般行為模式時(shí),可能將異常點(diǎn)視為噪聲或偏差而丟棄,但在關(guān)注數(shù)據(jù)非一般模式的應(yīng)用中,異常事件比正常事件更令人感興趣。例1.5什么是異常檢測(cè)大數(shù)據(jù)挖掘的工具與技術(shù)1.61.6.1PythonPython由荷蘭數(shù)學(xué)和計(jì)算機(jī)科學(xué)研究中心GuidovanRossum于1989年設(shè)計(jì)發(fā)明。Python代碼易閱讀、易維護(hù);免費(fèi)、開源,被移植到很多平臺(tái)上,例如Linux、Windows、FreeBSD、Macintosh、Solaris、OS/2,以及Google基于Linux開發(fā)的Android平臺(tái)等支持面向過程編程,也支持面向?qū)ο缶幊獭>哂锌蓴U(kuò)展性、可擴(kuò)充性和可嵌入性。為所有主要商業(yè)數(shù)據(jù)庫(kù)提供了接口,為大型程序提供了更好的結(jié)構(gòu)和支持。Python有豐富的標(biāo)準(zhǔn)庫(kù)和擴(kuò)展庫(kù),可以處理各類工作,完成各種高級(jí)任務(wù)。NumPy提供快速數(shù)組處理、SciPy提供數(shù)值運(yùn)算功能,Matplotlib提供繪圖功能;機(jī)器學(xué)習(xí)庫(kù)Scikit-Learn為用戶提供各種機(jī)器學(xué)習(xí)的算法接口,使用戶可以簡(jiǎn)單、高效地進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。版本不斷更新,不斷添加新功能,Python逐漸被用于獨(dú)立的、大型項(xiàng)目的開發(fā)。Python簡(jiǎn)介1.6.2HadoopHadoop是開源社區(qū)Apache的,基于廉價(jià)商業(yè)硬件集群和開放標(biāo)準(zhǔn)的,分布式數(shù)據(jù)存儲(chǔ)及處理平臺(tái)。是首選的大數(shù)據(jù)分析工具。Hadoop具有高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性、計(jì)算性能和低成本等優(yōu)勢(shì),支持多種編程語(yǔ)言,擅長(zhǎng)存儲(chǔ)大量的半結(jié)構(gòu)化數(shù)據(jù)集,數(shù)據(jù)可以隨機(jī)存放,一個(gè)磁盤的失敗并不會(huì)造成數(shù)據(jù)丟失。Hadoop擅長(zhǎng)分布式計(jì)算,可快速地跨多臺(tái)機(jī)器處理PB量級(jí)的大型數(shù)據(jù)集合。Hadoop常部署在低成本的Intel/Linux硬件平臺(tái)上,由多臺(tái)裝有Intelx86處理器的服務(wù)器或PC(個(gè)人計(jì)算機(jī))通過高速局域網(wǎng)構(gòu)成一個(gè)計(jì)算集群,在各個(gè)節(jié)點(diǎn)上運(yùn)行Linux操作系統(tǒng)。Hadoop簡(jiǎn)介1.6.2HadoopHadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成員組成,最核心部分是HDFS和MapReduce并行計(jì)算編程模型。HDFS為海量數(shù)據(jù)提供存儲(chǔ)功能,MapReduce計(jì)算引擎在HDFS的上一層,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。采用分而治之的思想:將大數(shù)據(jù)集劃分為小數(shù)據(jù)集,將小數(shù)據(jù)集劃分為更小數(shù)據(jù)集,將更小數(shù)據(jù)集分發(fā)到集群節(jié)點(diǎn)上,以并行方式完成計(jì)算處理,然后再將計(jì)算結(jié)果遞歸合并,得到最終的計(jì)算結(jié)果。多節(jié)點(diǎn)計(jì)算所涉及的任務(wù)調(diào)度、負(fù)載均衡、容錯(cuò)處理等都由MapReduce框架完成。HDFS和MapReduce并行計(jì)算編程模型構(gòu)成了大數(shù)據(jù)計(jì)算平臺(tái)Hadoop的兩個(gè)核心功能模塊,它們提供了在普通商業(yè)集群上完成大數(shù)據(jù)集計(jì)算處理的能力。Hadoop簡(jiǎn)介1.6.3SparkSpark是開源大數(shù)據(jù)處理框架,最初由加州大學(xué)伯克利分校的AMPLab開發(fā)。Spark提供了一種快速、通用且易于使用的計(jì)算模型,可以處理各種類型的大規(guī)模數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。核心特性是其內(nèi)存計(jì)算能力和彈性分布式數(shù)據(jù)集(簡(jiǎn)稱RDD)。RDD是Spark的主要數(shù)據(jù)抽象,它是一個(gè)可分區(qū)、可并行處理和可容錯(cuò)的數(shù)據(jù)集合。RDD既可以從磁盤讀取數(shù)據(jù),也可以通過轉(zhuǎn)換操作從其他RDD中獲取,還可以在內(nèi)存中進(jìn)行持久化和緩存。提供了豐富的API,支持各種數(shù)據(jù)處理操作,如過濾、映射、聚合、排序、連接等,提供了豐富的高級(jí)庫(kù)和工具,用于處理圖形計(jì)算、機(jī)器學(xué)習(xí)、流處理和SQL查詢等。S架構(gòu)基于主-從模式,其中一個(gè)主節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)任務(wù)和資源管理,多個(gè)工作節(jié)點(diǎn)(從節(jié)點(diǎn))執(zhí)行具體的計(jì)算任務(wù)。還支持在分布式環(huán)境中運(yùn)行,并提供了內(nèi)置的容錯(cuò)機(jī)制,以保證節(jié)點(diǎn)故障時(shí)數(shù)據(jù)的可靠性和計(jì)算的持續(xù)性。Spark簡(jiǎn)介大數(shù)據(jù)挖掘的應(yīng)用1.71.7.1大數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用金融行業(yè)使用數(shù)據(jù)挖掘較早。隨著金融領(lǐng)域信息化的迅速發(fā)展,銀行和金融機(jī)構(gòu)在交易、信貸、投資、儲(chǔ)存等服務(wù)業(yè)務(wù)中產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)通常比較完整、可靠、規(guī)范,并具有較高的質(zhì)量,極大地方便了數(shù)據(jù)挖掘的成功應(yīng)用。對(duì)大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理,提取有價(jià)值的信息,有助于企業(yè)進(jìn)行商業(yè)決策。匯豐、花旗和瑞士銀行等均是數(shù)據(jù)挖掘技術(shù)應(yīng)用的先行者。數(shù)據(jù)挖掘可應(yīng)用于貸款償還預(yù)測(cè)、客戶信用評(píng)價(jià)和交叉銷售等。金融行業(yè)是數(shù)據(jù)挖掘的先行者1.7.1數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用與貸款償還風(fēng)險(xiǎn)有關(guān)的因素:貸款金額、貸款率、貸款期限、借款方的負(fù)債率、償還收入比、收入水平、受教育程度、年齡、職業(yè)、居住地區(qū)、信用歷史等。數(shù)據(jù)挖掘可幫助金融機(jī)構(gòu)識(shí)別影響貸款風(fēng)險(xiǎn)的重要因素和非重要因素。對(duì)歷史數(shù)據(jù)建立分類模型預(yù)測(cè)貸款違約,制定貸款發(fā)放政策,將貸款發(fā)放給低風(fēng)險(xiǎn)借款者。使用信用評(píng)分對(duì)貸款申請(qǐng)者打分,產(chǎn)生優(yōu)質(zhì)與否的評(píng)判。信用評(píng)分根據(jù)客戶的歷史信用資料,構(gòu)建信用評(píng)分模型,得到不同等級(jí)的信用分?jǐn)?shù)。授信者根據(jù)客戶的信用分?jǐn)?shù)分析客戶按時(shí)還款的可能性,決定是否授信以及授信的額度和利率,以便保證還款等業(yè)務(wù)的安全性。信用評(píng)分模型構(gòu)建:確定業(yè)務(wù)目標(biāo)、識(shí)別數(shù)據(jù)源、收集數(shù)據(jù)、選擇數(shù)據(jù)、數(shù)據(jù)質(zhì)量的審核、數(shù)據(jù)的轉(zhuǎn)換、模型的建立與評(píng)估、結(jié)果的解釋、決策建議和應(yīng)用部署等。風(fēng)險(xiǎn)控制與信用評(píng)分1.7.1數(shù)據(jù)挖掘在金融行業(yè)的應(yīng)用當(dāng)客戶來(lái)銀行尋求一項(xiàng)服務(wù)時(shí),銀行在未來(lái)某個(gè)時(shí)間點(diǎn)上滿足客戶其他需求的能力是建立在預(yù)先存在的關(guān)系的基礎(chǔ)上。當(dāng)銀行交叉銷售處于最佳狀態(tài)時(shí),銀行便與現(xiàn)有客戶建立了良好的互信關(guān)系。銀行交叉銷售典型例子:擁有支票或儲(chǔ)蓄賬戶的客戶選擇該銀行的其它金融服務(wù)。例如,銀行向有支票賬戶或儲(chǔ)蓄賬戶的客戶提供汽車貸款服務(wù)??蛻粝蜚y行尋求汽車貸款,而不是利用經(jīng)銷商融資購(gòu)買新車。當(dāng)銀行能夠滿足客戶的需求,并提供優(yōu)于經(jīng)銷商融資的利率時(shí),客戶便以較低的個(gè)人成本獲得融資,而銀行也能從中獲益。銀行有大量客戶交易信息,通過關(guān)聯(lián)分析可以找出數(shù)據(jù)中隱藏的關(guān)聯(lián)關(guān)系,預(yù)測(cè)客戶的潛在需求,創(chuàng)造個(gè)性化的服務(wù)產(chǎn)品,并從各產(chǎn)品中找出關(guān)聯(lián)性較強(qiáng)的產(chǎn)品,對(duì)客戶進(jìn)行有針對(duì)性的關(guān)聯(lián)營(yíng)銷。還可以進(jìn)行客戶細(xì)分、客戶價(jià)值分析、客戶流失預(yù)警、新客戶開發(fā)以及新產(chǎn)品推廣,發(fā)現(xiàn)具有潛在欺詐性的事件和反洗錢活動(dòng)等;在證券市場(chǎng),可以進(jìn)行股票市場(chǎng)走勢(shì)預(yù)測(cè),潛力股分析,股票價(jià)格預(yù)測(cè)等。交叉銷售1.7.2數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用主題較多,這些主題主要圍繞客戶生命周期:新客戶獲取、客戶成長(zhǎng)、客戶成熟、客戶衰退和客戶離開五個(gè)階段??蛻魞r(jià)值是指從企業(yè)角度出發(fā),根據(jù)客戶的消費(fèi)行為等數(shù)據(jù)分析客戶能夠?yàn)槠髽I(yè)創(chuàng)造哪些價(jià)值。不同客戶或客戶群對(duì)企業(yè)的價(jià)值貢獻(xiàn)具有差異性,80%的利潤(rùn)往往來(lái)自20%的客戶。企業(yè)有必要區(qū)別對(duì)待不同客戶或客戶群,即采取不同的服務(wù)政策與管理策略,優(yōu)化配置企業(yè)有限的資源,以實(shí)現(xiàn)高產(chǎn)出。電信客戶價(jià)值分析包括:客戶當(dāng)前價(jià)值分析和客戶潛在價(jià)值分析。前者通過客戶的利潤(rùn)率和ARPU(AverageRevenuePerUser,每客戶平均收入)等指標(biāo)計(jì)算當(dāng)前客戶價(jià)值得分;后者基于客戶的人口統(tǒng)計(jì)學(xué)屬性、客戶的通話行為和計(jì)帳屬性等數(shù)據(jù),通過建立數(shù)據(jù)挖掘模型,計(jì)算不同客戶或客戶群的潛在價(jià)值得分。結(jié)合當(dāng)前價(jià)值得分和潛在價(jià)值得分,得到客戶價(jià)值得分,可以此衡量客戶對(duì)電信企業(yè)的利潤(rùn)的貢獻(xiàn),也是企業(yè)爭(zhēng)取客戶、保持客戶的重要依據(jù)??蛻魞r(jià)值分析1.7.2數(shù)據(jù)挖掘在電信行業(yè)的應(yīng)用對(duì)電信企業(yè)來(lái)講,市場(chǎng)競(jìng)爭(zhēng)就是對(duì)客戶的競(jìng)爭(zhēng)。在客戶成熟期,運(yùn)營(yíng)商可基于客戶的人口統(tǒng)計(jì)學(xué)特征、消費(fèi)行為、上網(wǎng)行為和興趣愛好等方面的數(shù)據(jù),借助分類、聚類等技術(shù)將客戶分組,使同一組的客戶之間盡可能相似,不同組的客戶之間盡可能相異。依據(jù)客戶差異化的分組可以確定企業(yè)感興趣的客戶群。針對(duì)不同客戶群的消費(fèi)特征制定不同的價(jià)格和促銷策略,推薦更具個(gè)性化的服務(wù)產(chǎn)品,來(lái)提高客戶的滿意度,降低服務(wù)成本,增加ARPU值,提高企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力??蛻艏?xì)分1.7.3數(shù)據(jù)挖掘在醫(yī)療行業(yè)的應(yīng)用醫(yī)療相關(guān)行業(yè)的數(shù)據(jù)挖掘應(yīng)用涉及醫(yī)院、藥企及研發(fā)機(jī)構(gòu)、政府部門及保險(xiǎn)公司等。醫(yī)院的大數(shù)據(jù)應(yīng)用包括臨床數(shù)據(jù)對(duì)比、臨床決策支持、遠(yuǎn)程病人數(shù)據(jù)分析、就診行為分析以及醫(yī)院管理決策等。藥品生產(chǎn)企業(yè)及研發(fā)機(jī)構(gòu)的大數(shù)據(jù)應(yīng)用包括藥物研發(fā)、基因測(cè)序和基本藥物臨床應(yīng)用分析等。政府部門及保險(xiǎn)公司的大數(shù)據(jù)應(yīng)用包括醫(yī)療保險(xiǎn)費(fèi)用分析、實(shí)時(shí)統(tǒng)計(jì)分析以及“新農(nóng)合”基金數(shù)據(jù)分析等。醫(yī)療健康數(shù)據(jù)包含:移動(dòng)端個(gè)人健康數(shù)據(jù)、醫(yī)院臨床數(shù)據(jù)、基因數(shù)據(jù)以及疾病預(yù)防控制的流調(diào)數(shù)據(jù)等。多來(lái)源數(shù)據(jù)融合可為個(gè)人健康規(guī)劃、疾病防治以及國(guó)家衛(wèi)生策略提供更好地進(jìn)行科學(xué)決策的數(shù)據(jù)基礎(chǔ)。一些醫(yī)院擁有大量的以電子病歷為核心的臨床數(shù)據(jù),記錄了病人的疾病、診斷及治療等信息,對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,可輔助醫(yī)生進(jìn)行臨床科研與臨床診療。基于數(shù)據(jù)挖掘建立的疾病早期預(yù)警模型,有助于疾病的早期診斷、預(yù)警和監(jiān)護(hù),也有利于醫(yī)療機(jī)構(gòu)采取預(yù)防和控制措施,減少疾病惡化及并發(fā)癥的發(fā)生。應(yīng)用主題1.7.4社會(huì)網(wǎng)絡(luò)分析社交平臺(tái)上個(gè)體之間的關(guān)系隱含在數(shù)據(jù)中,這種關(guān)系包含了豐富的信息。社會(huì)網(wǎng)絡(luò)是由圖表示的異構(gòu)多關(guān)系數(shù)據(jù)集就是,其中節(jié)點(diǎn)表示對(duì)象,代表人或組織等,邊表示對(duì)象間的聯(lián)系或相互依賴的鏈接,代表朋友關(guān)系、共同興趣或合作活動(dòng)等。社會(huì)網(wǎng)絡(luò)可以是科學(xué)家的合著和引用關(guān)系網(wǎng)絡(luò)、消費(fèi)者網(wǎng)絡(luò)、公司內(nèi)的信息交換、朋友關(guān)系,也可以是萬(wàn)維網(wǎng)、電力網(wǎng)、電話交互網(wǎng)等。社會(huì)網(wǎng)絡(luò)分析旨在研究一組行動(dòng)者之間的關(guān)系。行動(dòng)者可以是人、社區(qū)、群體、組織、國(guó)家等。進(jìn)行社會(huì)網(wǎng)絡(luò)分析需要用到數(shù)據(jù)挖掘技術(shù)。關(guān)系模式反映的現(xiàn)象是分析的焦點(diǎn),例如:從社會(huì)網(wǎng)絡(luò)角度出發(fā),人在社會(huì)環(huán)境中的相互作用可表達(dá)為基于關(guān)系的一種模式或規(guī)則,這些模式或規(guī)則反映了社會(huì)結(jié)構(gòu)。例如:Web本質(zhì)上是一個(gè)虛擬社會(huì)關(guān)系網(wǎng),每個(gè)網(wǎng)頁(yè)是一個(gè)行動(dòng)者,每個(gè)超鏈接是一個(gè)關(guān)系,在Web環(huán)境下進(jìn)行社會(huì)網(wǎng)絡(luò)分析,可挖掘Web用戶行為模式,并以此為依據(jù)改進(jìn)諸如推薦、信息檢索、網(wǎng)絡(luò)輿情監(jiān)測(cè)等系統(tǒng)的應(yīng)用效果,并提升用戶體驗(yàn)。在使用敏感信息時(shí),數(shù)據(jù)挖掘人員有義務(wù)考慮法律層面和道德層面的問題,如是否侵犯隱私、是否將客戶推向困境等。應(yīng)用主題1.7.5推薦系統(tǒng)推薦系統(tǒng)是一種信息過濾系統(tǒng),用于預(yù)測(cè)用戶對(duì)物品的“評(píng)分”或“偏好”,并據(jù)此生成物品的推薦列表,為用戶提供個(gè)性化的信息服務(wù)。推薦系統(tǒng)的核心是推薦技術(shù)和算法,涵蓋分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及時(shí)間序列分析等。推薦系統(tǒng)對(duì)用戶與某類物品之間的聯(lián)系建模。比如利用推薦系統(tǒng)來(lái)告訴用戶他們可能會(huì)喜歡的書籍、服裝、電影、音樂、新聞等。如果推薦的準(zhǔn)確性高,就能吸引更多的用戶持續(xù)使用相應(yīng)的服務(wù)。推薦系統(tǒng)通過研究用戶的興趣偏好進(jìn)行個(gè)性化計(jì)算,發(fā)現(xiàn)用戶的興趣點(diǎn),從而引導(dǎo)用戶發(fā)現(xiàn)自己的信息需求。一個(gè)好的推薦系統(tǒng)不僅能為用戶提供個(gè)性化的服務(wù),還能和用戶建立密切關(guān)系,使用戶對(duì)推薦產(chǎn)生依賴。亞馬遜,全球最大的電商平臺(tái)之一,其成功不僅在于豐富的商品和有競(jìng)爭(zhēng)力的價(jià)格,還在于其卓越的個(gè)性化推薦和營(yíng)銷策略。推薦系統(tǒng)已廣泛應(yīng)用于很多行業(yè)。應(yīng)用主題參考文獻(xiàn)[1](英)ViktorMayer-Sch?nberger,Ke

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論