“1+X”(初級)02-大數(shù)據(jù)分析概述_第1頁
“1+X”(初級)02-大數(shù)據(jù)分析概述_第2頁
“1+X”(初級)02-大數(shù)據(jù)分析概述_第3頁
“1+X”(初級)02-大數(shù)據(jù)分析概述_第4頁
“1+X”(初級)02-大數(shù)據(jù)分析概述_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析概述學(xué)習(xí)完本課程后,你將能夠:1.了解大數(shù)據(jù)分析的概念、發(fā)展歷史和應(yīng)用場景2.了解大數(shù)據(jù)分析的流程與常用技術(shù)及相關(guān)工具課程目標(biāo)課程目錄1.什么是大數(shù)據(jù)分析1.1大數(shù)據(jù)分析的概念1.2

大數(shù)據(jù)分析的產(chǎn)生與發(fā)展1.3大數(shù)據(jù)分析的應(yīng)用場景2.大數(shù)據(jù)分析流程、技術(shù)和工具大數(shù)據(jù)分析的概念數(shù)據(jù)分析是基于商業(yè)等目的,有目的的進(jìn)行收集、整理、加工和分析數(shù)據(jù),提煉有價(jià)值信息的過程。大數(shù)據(jù)分析針對的是海量的多樣化的數(shù)據(jù)集合。需求分析明確目標(biāo)數(shù)據(jù)收集加工處理數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分析報(bào)告提煉價(jià)值課程目錄1.什么是大數(shù)據(jù)分析1.1大數(shù)據(jù)分析的概念1.2

大數(shù)據(jù)分析的產(chǎn)生與發(fā)展1.3大數(shù)據(jù)分析的應(yīng)用場景2.大數(shù)據(jù)分析流程、技術(shù)和工具大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-關(guān)系數(shù)據(jù)庫1970年IBM的埃德加·科德(EdgarCodd,1981年圖靈獎(jiǎng)獲得者)發(fā)表了跨時(shí)代的著名論文“ARelationalModelofDataforLargeSharedDataBanks”,開啟了關(guān)系數(shù)據(jù)庫的時(shí)代,該模型是大多數(shù)數(shù)據(jù)庫系統(tǒng)的基礎(chǔ)基于關(guān)系數(shù)據(jù)庫的系統(tǒng)開始大量地應(yīng)用于企業(yè)業(yè)務(wù),例如:材料需求計(jì)劃(MRP)系統(tǒng),就代表了計(jì)算機(jī)最早的主流商業(yè)用途之一,用于提高日常物料管理的效率

EdgarFrankCodd(1923-2003)在計(jì)算機(jī)的輔助下,人類處理信息地速度空前地加快了大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-商業(yè)智能的出現(xiàn)1958年,IBM研究員HansPeterLuhn將商業(yè)智能定義為“能夠理解所呈現(xiàn)的事實(shí)之間的相互關(guān)系,從而引導(dǎo)行動(dòng)朝著預(yù)期目標(biāo)前進(jìn)的能力?!?970年代,隨著用于分析商業(yè)和操作性能的軟件和系統(tǒng)的興起,“商業(yè)智能”的受歡迎程度也越來越高。

HansPeterLuhn(1896-1964)GartnerGroup在九十年代發(fā)展了BI的概念:商業(yè)智能提供了使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。為了將數(shù)據(jù)轉(zhuǎn)化為知識(shí),需要利用數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理(OLAP)工具和數(shù)據(jù)挖掘等技術(shù)。因此,從技術(shù)層面上講,商業(yè)智能不是什么新技術(shù),它只是數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘等技術(shù)的綜合運(yùn)用。大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-統(tǒng)計(jì)學(xué)的出現(xiàn)321JohnGraunt利用統(tǒng)計(jì)學(xué)建立起對黑死病早期預(yù)警系統(tǒng)的理論1663年美國人口普查局工程師HermanHollerith發(fā)明了打孔卡制表機(jī),大大縮短了工作時(shí)間1880年銀行家HenryFurnese用結(jié)構(gòu)化的方式收集和分析了有關(guān)競爭對手的商業(yè)活動(dòng)來獲取競爭優(yōu)勢,這被認(rèn)為是第一次數(shù)據(jù)分析的商業(yè)應(yīng)用1865年大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-互聯(lián)網(wǎng)的崛起321TimBerners-Lee定義地超文本規(guī)范,標(biāo)志著萬維網(wǎng)(WorldWideWeb)的誕生1991年P(guān)eterLyman和HalVarian(現(xiàn)任谷歌首席經(jīng)濟(jì)學(xué)家)試圖量化全世界的數(shù)字信息量以及其增長率。得出“全世界每年生產(chǎn)的印刷、電影、光學(xué)和磁學(xué)的內(nèi)容需要大約15億千兆字節(jié)的存儲(chǔ)空間”這一結(jié)論。2000年谷歌搜索在這一年首次亮相,成為搜索互聯(lián)網(wǎng)數(shù)據(jù)的工具1998年大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-數(shù)據(jù)大爆炸開啟654始于出版社經(jīng)營者O'Reilly和MediaLiveInternational之間的一場頭腦風(fēng)暴論壇,Web2.0誕生,即用戶生成的Web,其中大部分內(nèi)容將由服務(wù)的用戶提供,而不是服務(wù)提供者本身2004年Hadoop這個(gè)開源框架被創(chuàng)建出來,專門用于存儲(chǔ)和分析大數(shù)據(jù)集。它的靈活性使它對管理非結(jié)構(gòu)化數(shù)據(jù)(語音、視頻、原始文本等)特別有用,我們正在越來越多地生成和收集這些數(shù)據(jù)2005年Facebook這樣的社交軟件開始出現(xiàn)2004年大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-大數(shù)據(jù)產(chǎn)生根源10互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展計(jì)算機(jī)計(jì)算的發(fā)展大數(shù)據(jù)的產(chǎn)生大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-數(shù)據(jù)基礎(chǔ)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,是大數(shù)據(jù)時(shí)代出現(xiàn)的數(shù)據(jù)基礎(chǔ)。互聯(lián)網(wǎng)物聯(lián)網(wǎng)大量數(shù)據(jù)大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-技術(shù)基礎(chǔ)計(jì)算機(jī)技術(shù)的飛速發(fā)展,是大數(shù)據(jù)時(shí)代出現(xiàn)的技術(shù)基礎(chǔ)。

計(jì)算機(jī)技術(shù)無線互聯(lián)技術(shù)數(shù)據(jù)抓取技術(shù)并行處理技術(shù)高容量存儲(chǔ)技術(shù)數(shù)據(jù)可視化技術(shù)人工智能技術(shù)大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-技術(shù)發(fā)展階段200320042006200720082009Google發(fā)布DFS的論文Google發(fā)布MapReduce論文DougCutting等基于Google論文實(shí)現(xiàn)了Hadoop的代碼.Google發(fā)布了Bigtable的論文Powerset基于Bigtable發(fā)布了HbaseHadoop逐漸成為互聯(lián)網(wǎng)公司的數(shù)據(jù)倉庫UCberkley的AMPLab研發(fā)出Spark第一個(gè)SQLonHadoop引擎Hive誕生2012Hadoop成為企業(yè)級的成熟產(chǎn)品2014Spark成為下一代計(jì)算引擎2016Google開源深度學(xué)習(xí)框架TensorFlow2017新一代高性能計(jì)算引擎Ray發(fā)布大數(shù)據(jù)分析的產(chǎn)生與發(fā)展-大數(shù)據(jù)分析開源框架在存儲(chǔ)層,HDFS已經(jīng)成為了大數(shù)據(jù)磁盤存儲(chǔ)的事實(shí)標(biāo)準(zhǔn),針對關(guān)系型以外的數(shù)據(jù)模型,開源社區(qū)形成了K-V(key-value)、列式、文檔、圖這四類NoSQL數(shù)據(jù)庫體系,Redis、HBase、MongoDB、Neo4j等數(shù)據(jù)庫是各個(gè)領(lǐng)域的領(lǐng)先者。計(jì)算處理引擎方面,Spark已經(jīng)取代MapReduce成為了大數(shù)據(jù)平臺(tái)統(tǒng)一的計(jì)算平臺(tái),在實(shí)時(shí)計(jì)算領(lǐng)域Flink是SparkStreaming強(qiáng)力的競爭者。在數(shù)據(jù)查詢和分析領(lǐng)域,形成了豐富的SQLonHadoop的解決方案,Hive、HAWQ、Impala、Presto、SparkSQL等技術(shù)與傳統(tǒng)的大規(guī)模并行處理(massivelyparallelprocessor,MPP)數(shù)據(jù)庫競爭激烈,目前Hive還是這個(gè)領(lǐng)域當(dāng)之無愧的王者。在數(shù)據(jù)可視化領(lǐng)域,敏捷商業(yè)智能(businessintelligence,BI)分析工具Tableau、QlikView通過簡單的拖拽來實(shí)現(xiàn)數(shù)據(jù)的復(fù)雜展示,是目前最受歡迎的可視化展現(xiàn)方式課程目錄1.什么是大數(shù)據(jù)分析1.1大數(shù)據(jù)分析的概念1.2

大數(shù)據(jù)分析的產(chǎn)生與發(fā)展1.3大數(shù)據(jù)分析的應(yīng)用場景2.大數(shù)據(jù)分析流程、技術(shù)和工具大數(shù)據(jù)分析的應(yīng)用場景–概述大數(shù)據(jù)分析,在商業(yè)、制造業(yè)、媒體等領(lǐng)域有廣泛的應(yīng)用商業(yè)零售商、銀行、制造商、電信供應(yīng)商和保險(xiǎn)公司等都在利用數(shù)據(jù)挖掘技術(shù),從定價(jià)、促銷和人口統(tǒng)計(jì)數(shù)據(jù),到經(jīng)濟(jì)、風(fēng)險(xiǎn)、競爭和社交媒體,研究以上這些如何影響它們的商業(yè)模式、收入、運(yùn)營和客戶關(guān)系等各個(gè)領(lǐng)域。制造業(yè)制造業(yè)存在大量的設(shè)備,通過感應(yīng)器采集不同類型的數(shù)據(jù)獲得如音響、振動(dòng)、壓力、電流、電壓和控制器的數(shù)據(jù),大量的數(shù)據(jù)構(gòu)建制造業(yè)的大數(shù)據(jù),作為設(shè)備診斷和健康管理分析工具的輸入項(xiàng)。媒體媒體的大數(shù)據(jù)應(yīng)用,針對不同用戶調(diào)整消息(廣告)和內(nèi)容(文章)。大數(shù)據(jù)分析的應(yīng)用場景舉例–關(guān)聯(lián)分析啤酒與尿布“啤酒與尿布”

的故事可以說是營銷界的經(jīng)典段子。這個(gè)故事產(chǎn)生于20世紀(jì)90年代的美國沃爾瑪超市中,沃爾瑪?shù)某泄芾砣藛T在分析銷售數(shù)據(jù)時(shí)發(fā)現(xiàn)了一個(gè)令人難以理解的現(xiàn)象:在某些特定的情況下,啤酒與尿布兩件看上去毫無關(guān)系的商品會(huì)經(jīng)常出現(xiàn)在同一個(gè)購物籃中,而且,啤酒與尿布在周末的時(shí)候銷量明顯會(huì)高于平時(shí)。這種獨(dú)特的銷售現(xiàn)象引起了管理人員的注意。他們經(jīng)過后續(xù)調(diào)查發(fā)現(xiàn),這種現(xiàn)象出現(xiàn)在年輕的父親身上。為什么“啤酒與尿布”的故事會(huì)產(chǎn)生在沃爾瑪?shù)馁u場中?原因來自于兩個(gè)方面:沃爾瑪先進(jìn)的計(jì)算機(jī)技術(shù)沃爾瑪運(yùn)用了大數(shù)據(jù)分析方法

大數(shù)據(jù)分析的應(yīng)用場景舉例–趨勢預(yù)測谷歌流感趨勢“谷歌流感趨勢”便是谷歌2008年推出,用于預(yù)警流感的即時(shí)網(wǎng)絡(luò)服務(wù)。其發(fā)明者是谷歌公司的兩名軟件工程師杰瑞米·金斯伯格和馬特·莫赫布。他們一致認(rèn)為:”谷歌搜索顯示的數(shù)據(jù)分布模式非常有價(jià)值“。谷歌在美國的九個(gè)地區(qū)就這一觀點(diǎn)做了測試,并且發(fā)現(xiàn),它比聯(lián)邦疾病控制和預(yù)防中心提前了7~14天準(zhǔn)確預(yù)測了流感的爆發(fā)。

大數(shù)據(jù)分析的應(yīng)用場景舉例–決策支持美國總統(tǒng)大選美國總統(tǒng)奧巴馬成功擊敗對手羅姆尼,再次贏得美國總統(tǒng)選舉的當(dāng)天,《時(shí)代》雜志撰寫了一篇文章,描述了奧巴馬總統(tǒng)獲勝背后的秘密數(shù)據(jù)挖掘。以競選工作組發(fā)言人本拉波特的話來形容:“奧巴馬團(tuán)隊(duì)擁有‘核代碼’,數(shù)據(jù)是能夠擊敗羅姆尼的最根本優(yōu)勢!”

奧巴馬團(tuán)隊(duì)競選成功利用數(shù)據(jù)分析購買廣告動(dòng)員的渠道及采取的互動(dòng)方式不同首次利用Facebook進(jìn)行大規(guī)模投票動(dòng)員建立了人口特性分析系統(tǒng)……課程目錄1.什么是大數(shù)據(jù)分析2.大數(shù)據(jù)分析流程、技術(shù)和工具2.1大數(shù)據(jù)采集技術(shù)2.2

大數(shù)據(jù)預(yù)處理技術(shù)2.3大數(shù)據(jù)存儲(chǔ)與管理技術(shù)2.4大數(shù)據(jù)處理技術(shù)2.5大數(shù)據(jù)分析與挖掘技術(shù)2.6大數(shù)據(jù)可視化技術(shù)大數(shù)據(jù)分析流程離線實(shí)時(shí)數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)計(jì)算數(shù)據(jù)應(yīng)用實(shí)時(shí)數(shù)據(jù)采集:Flume、Fluented、Splunk、DataHub…離線數(shù)據(jù)采集ETL:Sqoop、DataX…數(shù)據(jù)存儲(chǔ):關(guān)系數(shù)據(jù)庫、mpp數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、分布式文件系統(tǒng)數(shù)據(jù)倉庫建模元數(shù)據(jù)管理數(shù)據(jù)質(zhì)量控制數(shù)據(jù)安全管理多維統(tǒng)計(jì)分析大規(guī)模并行計(jì)算框架數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)模型與算法分布式式實(shí)時(shí)計(jì)算交互式分析數(shù)據(jù)報(bào)表可視化展現(xiàn)數(shù)據(jù)服務(wù)數(shù)據(jù)分享云計(jì)算大數(shù)據(jù)分析技術(shù)體系大數(shù)據(jù)采集技術(shù)–大數(shù)據(jù)采集的方法WEB端基于瀏覽器網(wǎng)絡(luò)爬蟲/API頁面瀏覽日志(pv/uv)頁面交互日志(轉(zhuǎn)化率)APP端無線客戶端采集SDK/埋點(diǎn)頁面瀏覽事件控件點(diǎn)擊事件傳感器物聯(lián)網(wǎng)測量值轉(zhuǎn)化數(shù)字信號(hào)如人工智能駕駛(溫濕度、障礙物)數(shù)據(jù)庫源業(yè)務(wù)系統(tǒng)數(shù)據(jù)同步結(jié)構(gòu)化數(shù)據(jù)客戶、交易等第三方第三方數(shù)據(jù)合作方提供如政府公布宏觀數(shù)據(jù)對接公安系統(tǒng)的身份核驗(yàn)大數(shù)據(jù)采集技術(shù)–離線數(shù)據(jù)采集ETL目標(biāo)數(shù)據(jù)倉庫清洗轉(zhuǎn)換抽取裝載源數(shù)據(jù)庫源文件其他ETL是Extract、Transform、Loading三個(gè)字母的縮寫,即抽取、轉(zhuǎn)換、裝載。目前市場上主流的ETL工具有1、InformaticaPowerCenter2、IBMDataStage3、開源Kettle4、阿里云DataXPowerCenterDataStageKettleDataX大數(shù)據(jù)采集技術(shù)–ETL工具大數(shù)據(jù)采集技術(shù)-實(shí)時(shí)數(shù)據(jù)采集與處理WEB日志數(shù)據(jù)庫日志APP日志傳感器……消息緩存與傳輸實(shí)時(shí)計(jì)算引擎數(shù)據(jù)存儲(chǔ)與應(yīng)用要求:多種數(shù)據(jù)源支持性能、吞吐量可靠性工具:FlumeKafkaDataHub課程目錄1.什么是大數(shù)據(jù)分析2.大數(shù)據(jù)分析流程、技術(shù)和工具2.1大數(shù)據(jù)采集技術(shù)2.2

大數(shù)據(jù)預(yù)處理技術(shù)2.3大數(shù)據(jù)存儲(chǔ)與管理技術(shù)2.4大數(shù)據(jù)處理技術(shù)2.5大數(shù)據(jù)分析與挖掘技術(shù)2.6大數(shù)據(jù)可視化技術(shù)數(shù)據(jù)集成:針對來自不同數(shù)據(jù)源的數(shù)據(jù),進(jìn)行合并并整理,形成統(tǒng)一的數(shù)據(jù)視圖需要考慮的問題:識(shí)別和匹配相關(guān)實(shí)體及數(shù)據(jù):從核心信息開始,逐步匹配擴(kuò)展到其他相關(guān)信息統(tǒng)一的元數(shù)據(jù)定義:表名、字段名、類型、單位(量綱)等統(tǒng)一的數(shù)據(jù)取值:通過映射規(guī)則(Mapping)進(jìn)行轉(zhuǎn)換,保持?jǐn)?shù)據(jù)一致性冗余數(shù)據(jù)處理:對于重復(fù)數(shù)據(jù)進(jìn)行刪除;對于相關(guān)性大的數(shù)據(jù)進(jìn)行適當(dāng)處理關(guān)系發(fā)散傳遞融入更多信息完成迭代合并尋找擴(kuò)展關(guān)系融入相關(guān)信息完成二次合并確定核心信息確定可靠關(guān)系完成初步合并大數(shù)據(jù)預(yù)處理技術(shù)–數(shù)據(jù)集成數(shù)據(jù)清洗:針對原始數(shù)據(jù),對出現(xiàn)的噪聲進(jìn)行修復(fù)、平滑或者剔除。包括異常值、缺失值、重復(fù)記錄、錯(cuò)誤記錄等;同時(shí)過濾掉不用的數(shù)據(jù),包括某些行或某些列。噪聲數(shù)據(jù)處理:異常值:箱線圖、Tukey’sTest等刪除、當(dāng)做缺失值、忽略分箱發(fā):箱均勻、箱中位數(shù)或箱邊界、平滑數(shù)據(jù)缺失值統(tǒng)計(jì)值填充:均值、眾數(shù)、中位數(shù)固定值填充:填充指定值最接近記錄值填充:與該樣本最接近的相同字段值模型擬合填充:填充回歸或其他模型預(yù)測值插值填充:建立插值函數(shù),如拉格朗日插值法、牛頓插值法等大數(shù)據(jù)預(yù)處理技術(shù)–數(shù)據(jù)清洗數(shù)據(jù)變換:對數(shù)據(jù)進(jìn)行變換處理,使數(shù)據(jù)更適合當(dāng)前任務(wù)或者算法的需要。常見的變換方式:使用簡單函數(shù)進(jìn)行變換方根和乘方變換對數(shù)和指數(shù)變換插值和比例變換數(shù)據(jù)規(guī)范化歸一化標(biāo)準(zhǔn)化中心化連續(xù)值離散化分裂法合并法大數(shù)據(jù)預(yù)處理技術(shù)–數(shù)據(jù)變換大數(shù)據(jù)預(yù)處理技術(shù)–數(shù)據(jù)規(guī)約數(shù)據(jù)規(guī)約:在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。主要包括屬性選擇和數(shù)據(jù)抽樣兩種方法。數(shù)據(jù)抽樣:簡單隨機(jī)抽樣:每個(gè)樣本被抽到的概率相等,隨機(jī)從總體中獲得指定個(gè)數(shù)的樣本數(shù)據(jù)系統(tǒng)抽樣:也叫等距抽樣,整體按某種順序排列后,隨機(jī)抽取第一個(gè)樣本,然后順序抽取其余樣本分層抽樣:將總體分成多個(gè)不交叉的群,隨機(jī)抽取若干個(gè)群連續(xù)抽樣:先抽樣,基于樣本分析,根據(jù)分析結(jié)果決定要不要繼續(xù)抽樣多階段抽樣:抽樣分階段進(jìn)行,每個(gè)階段使用的抽樣方法可以不同Bootstrap重抽樣:樣本量不足時(shí),有回放的重復(fù)抽樣課程目錄1.什么是大數(shù)據(jù)分析2.大數(shù)據(jù)分析流程、技術(shù)和工具2.1大數(shù)據(jù)采集技術(shù)2.2

大數(shù)據(jù)預(yù)處理技術(shù)2.3大數(shù)據(jù)存儲(chǔ)與管理技術(shù)2.4大數(shù)據(jù)處理技術(shù)2.5大數(shù)據(jù)分析與挖掘技術(shù)2.6大數(shù)據(jù)可視化技術(shù)大數(shù)據(jù)存儲(chǔ)與管理技術(shù)行存儲(chǔ):MySQL、Oracle列存儲(chǔ):Hbase,BigTable分布式文件系統(tǒng):HDFS、GFS、MaxComputeMongoDBNeo4JOSSKV存儲(chǔ):Redis、Cassandra結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)-HDFSHadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上。HDFS集群包含:一個(gè)主節(jié)點(diǎn)(NameNode)多個(gè)從屬節(jié)點(diǎn)(DataNodes)多個(gè)客戶端訪問分布式列存數(shù)據(jù)庫–HBaseHBase是一個(gè)構(gòu)建在HDFS上的分布式列存儲(chǔ)系統(tǒng),用于海量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。HBase的目標(biāo)是處理非常龐大的表,超過10億行、數(shù)百萬列高可靠、高性能水平擴(kuò)展、可伸縮面向列內(nèi)存數(shù)據(jù)庫–RedisRedis是一個(gè)開源的可基于內(nèi)存亦可持久化的日志型、Key-Value內(nèi)存數(shù)據(jù)庫。也可作為消息的發(fā)布、訂閱。高性能、高可用豐富數(shù)據(jù)類型支持事務(wù)豐富客戶端、多種語言API消息分發(fā)和存儲(chǔ)–KafkaKafka是分布式發(fā)布-訂閱消息系統(tǒng),是可劃分的、多訂閱者、冗余備份、持久性的日志服務(wù)。主要用于處理流式數(shù)據(jù)。高吞吐量分布式、易擴(kuò)展支持在線、離線非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)–OSS阿里云對象存儲(chǔ)服務(wù)(ObjectStorageService,OSS)是一種海量、安全、低成本、高可靠的云存儲(chǔ)服務(wù),適合存放任意類型的文件。容量和處理能力彈性擴(kuò)展,多種存儲(chǔ)類型供選擇,全面優(yōu)化存儲(chǔ)成本。高可靠性安全低成本豐富、強(qiáng)大的增值服務(wù)課程目錄1.什么是大數(shù)據(jù)分析2.大數(shù)據(jù)分析流程、技術(shù)和工具2.1大數(shù)據(jù)采集技術(shù)2.2

大數(shù)據(jù)預(yù)處理技術(shù)2.3大數(shù)據(jù)存儲(chǔ)與管理技術(shù)2.4大數(shù)據(jù)處理技術(shù)2.5大數(shù)據(jù)分析與挖掘技術(shù)2.6大數(shù)據(jù)可視化技術(shù)大數(shù)據(jù)處理技術(shù)四種計(jì)算場景離線在線流式批量大數(shù)據(jù)處理技術(shù)–離線批處理SQLSQL腳本語言(shell、tcl等)編程語言(java、c等)傳統(tǒng)關(guān)系型數(shù)據(jù)庫Hadoop開源平臺(tái)阿里云MaxCompute+DataWorksMapReduceHiveSQLSparkMaxComputeSQLMapReduceGraph通用計(jì)算框架–SparkSpark是一種分布式、通用大數(shù)據(jù)計(jì)算框架。可用于離線計(jì)算、交互式查詢、流式計(jì)算、機(jī)器學(xué)習(xí)等。速度快:基于內(nèi)存并行計(jì)算易上手:基于RDD計(jì)算模型通用性:SQL和DataFrames,,Mllib,GraphX,SparkStreaming大數(shù)據(jù)處理技術(shù)–實(shí)時(shí)流處理離線存儲(chǔ)數(shù)據(jù)裝載提交請求返回結(jié)果實(shí)時(shí)數(shù)據(jù)流實(shí)時(shí)結(jié)果流提交流處理任務(wù)離線批處理實(shí)時(shí)流處理大數(shù)據(jù)處理技術(shù)–實(shí)時(shí)流處理框架平臺(tái)Twitter開源的分布式實(shí)時(shí)大數(shù)據(jù)處理框架框架簡單,學(xué)習(xí)成本低毫秒級延遲,實(shí)時(shí)性好健壯、穩(wěn)定編程成本高邏輯與批處理完全不同,無法公用代碼Debug比較復(fù)雜Spark核心API的擴(kuò)展,實(shí)現(xiàn)高吞吐、可容錯(cuò)的實(shí)時(shí)流處理編程語言豐富、編程簡單框架封裝層級高,封裝性好可以共用批處理邏輯微批處理,時(shí)間延遲大穩(wěn)定性相對較差機(jī)器性能消耗大是一種可以處理批處理任務(wù)的流處理框架Flink流處理為先的方法可提供低延遲、高吞吐、近乎逐項(xiàng)處理的能力可通過多種方式對工作進(jìn)行分析進(jìn)而優(yōu)化任務(wù)提供了基于Web的調(diào)度視圖課程目錄1.什么是大數(shù)據(jù)分析2.大數(shù)據(jù)分析流程、技術(shù)和工具2.1大數(shù)據(jù)采集技術(shù)2.2

大數(shù)據(jù)預(yù)處理技術(shù)2.3大數(shù)據(jù)存儲(chǔ)與管理技術(shù)2.4大數(shù)據(jù)處理技術(shù)2.5大數(shù)據(jù)分析與挖掘技術(shù)2.6大數(shù)據(jù)可視化技術(shù)大數(shù)據(jù)分析技術(shù)–分析方法描述型分析:發(fā)生了什么?廣泛的,精確的實(shí)時(shí)數(shù)據(jù)有效的可視化診斷型分析:為什么會(huì)發(fā)生?能夠鉆取數(shù)據(jù)的核心能夠?qū)靵y的信息進(jìn)行分離預(yù)測型分析:可能發(fā)生什么?使用算法確保歷史模型能夠用戶預(yù)測特定的結(jié)果使用算法和技術(shù)確保自動(dòng)生成決定指令型分析:下步怎么做?依據(jù)測試結(jié)果來選定最佳的行為和策略應(yīng)用先進(jìn)的分析技術(shù)幫助做出決策復(fù)雜性價(jià)值描述型診斷型預(yù)測型指令型大數(shù)據(jù)分析技術(shù)–統(tǒng)計(jì)分析對數(shù)據(jù)集進(jìn)行摘要或描述多維分析(鉆取、切片、切塊、旋轉(zhuǎn))人口普查公報(bào)>全國人口普查公報(bào)大數(shù)據(jù)分析技術(shù)–交互式分析工具Impala是Cloudera在受到Google的Dremel啟發(fā)下開發(fā)的實(shí)時(shí)交互SQL大數(shù)據(jù)查詢工具,Impala沒有再使用緩慢的Hive+MapReduce批處理,而是通過使用與商用并行關(guān)系數(shù)據(jù)庫中類似的分布式查詢引擎(由QueryPlanner、QueryCoordinator和QueryExecEngine三部分組成),可以直接從HDFS或HBase中用SELECT、JOIN和統(tǒng)計(jì)函數(shù)查詢數(shù)據(jù),從而大大降低了延遲。Impala主要由Impalad,StateStore和CLI組成。apachezeppelin是一個(gè)可以進(jìn)行大數(shù)據(jù)可視化分析的交互式開發(fā)系統(tǒng),可以承擔(dān)數(shù)據(jù)接入、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)協(xié)作等任務(wù),其前端提供豐富的可視化圖形庫,不限于sparksql,后端以插件擴(kuò)展的方式支持hbase、flink等大數(shù)據(jù)系統(tǒng)。Hologres是阿里巴巴自主研發(fā)的一款全面兼容PostgreSQL11協(xié)議并與大數(shù)據(jù)生態(tài)無縫打通的實(shí)時(shí)交互式分析產(chǎn)品,致力于低成本高性能高可用的大規(guī)模計(jì)算型存儲(chǔ)和極致的查詢能力,為用戶提供海量數(shù)據(jù)實(shí)時(shí)數(shù)倉解決方案和實(shí)時(shí)交互式查詢服務(wù),與大數(shù)據(jù)生態(tài)無縫打通,支持對PB級數(shù)據(jù)進(jìn)行高并發(fā)、低延時(shí)的分析處理,讓您輕松而經(jīng)濟(jì)地使用現(xiàn)有BI工具對數(shù)據(jù)進(jìn)行多維分析透視和業(yè)務(wù)探索。大數(shù)據(jù)分析技術(shù)–數(shù)據(jù)挖掘提取隱含在數(shù)據(jù)中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)。C4.5、CART、AdaBoost、k-means、EM、Apriori、SVM、kNN、樸素貝葉斯等算法廣泛應(yīng)用于數(shù)據(jù)挖掘。大數(shù)據(jù)分析技術(shù)–機(jī)器學(xué)習(xí)機(jī)器獲取新知識(shí)和新技能,并識(shí)別現(xiàn)有知識(shí)。有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)。數(shù)據(jù)預(yù)處理特征工程模型訓(xùn)練離線/在線預(yù)測大數(shù)據(jù)分析技術(shù)–數(shù)據(jù)挖掘常用算法分類在給定數(shù)據(jù)基礎(chǔ)上構(gòu)建分類函數(shù)或分類模型,該函數(shù)或模型能夠把數(shù)據(jù)歸類為給定類別中某一類別,這就是分類的概念。典型算法有KNN、決策樹、樸素貝葉斯、支持向量機(jī)等。回歸回歸分析是一種預(yù)測性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系。常用的回歸方法有線性回歸與帶有正則化項(xiàng)的嶺回歸、LASSO回歸等。關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則屬于數(shù)據(jù)挖掘算法中的一類重要方法,關(guān)聯(lián)規(guī)則就是支持度與置信度分別滿足給定閾值的規(guī)則。聚類聚類也就是將抽象對象的集合分為相似對象組成的多個(gè)類的過程。聚類過程生成的簇稱為一組數(shù)據(jù)對象的集合。常見算法K-Means、EM、DB

Scan等大數(shù)據(jù)分析技術(shù)–線性回歸線性回歸是利用數(shù)理統(tǒng)計(jì)中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛。采集了一些父子的身高,對這些數(shù)據(jù)進(jìn)行建模,然后使用模型,根據(jù)輸入的新的父親的身高去預(yù)測其子身高的取值。1.擬合線性方程:Y

=

a*X

+

b2.帶入最小二乘公式:3.模型結(jié)果:Y

=

1.31*X

-

146.84.我的身高180,預(yù)測我的體重:Y

=

1.31*180

-146.8

=

89大數(shù)據(jù)分析技術(shù)–KNNKNN(K-Nearest

Neighbour):分類算法中最簡單的算法之一,其核心思想是如果離某一個(gè)樣本最近的k個(gè)本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。KNN不但可以預(yù)測分類,還可以做回歸分析(預(yù)測具體的值)。

大數(shù)據(jù)分析技術(shù)–K-MeansK-Means

即K均值聚類,屬于劃分聚類。其工作原理為根據(jù)初始化的聚類中心信息,計(jì)算每個(gè)樣本到這些中心的距離,可以判斷每個(gè)樣本均歸屬于某個(gè)類簇,更新聚簇中心信息,重新計(jì)算每個(gè)樣本到新的聚類中心的距離,重新劃分樣本到新的聚類中心對應(yīng)的類中,重復(fù)進(jìn)行,直到滿足終止條件。

大數(shù)據(jù)分析技術(shù)–K-Means第一步,確定聚類個(gè)數(shù)K,生成K個(gè)聚類中心,確定距離度量方法(觀察法、枚舉法等)大數(shù)據(jù)分析技術(shù)–K-Means第二步,計(jì)算每個(gè)點(diǎn)和聚類中心的距離,歸類大數(shù)據(jù)分析技術(shù)–K-Means

大數(shù)據(jù)分析技術(shù)–K-Means

大數(shù)據(jù)分析技術(shù)–K-Means

大數(shù)據(jù)分析技術(shù)–K-Means重復(fù)第二步,重復(fù)第三步,直到聚類中心不再變化,或者循環(huán)次數(shù)達(dá)到預(yù)先設(shè)定的閾值,結(jié)束,得到最終聚類結(jié)果。大數(shù)據(jù)分析技術(shù)–數(shù)據(jù)挖掘工具常見數(shù)據(jù)挖掘工具分為專用挖掘工具和通用挖掘工具兩類。專用數(shù)據(jù)數(shù)據(jù)挖掘工具針對某個(gè)特定領(lǐng)域的問題,在設(shè)計(jì)算法的時(shí)候充分考慮數(shù)據(jù)、需求的特殊性。對任何應(yīng)用領(lǐng)域,專業(yè)的統(tǒng)計(jì)研發(fā)人員都可以開發(fā)特定的數(shù)據(jù)挖掘工具。Weka公開的數(shù)據(jù)挖掘工作平臺(tái),集成大量數(shù)據(jù)挖掘算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則,以及交互式頁面上的可視化。SPSSSPSS采用類似Excel表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便地從其他數(shù)據(jù)庫中讀入數(shù)據(jù)。突出特點(diǎn)是操作界面友好,輸出結(jié)果美觀。PythonPython是一種面向?qū)ο蟮慕忉屝陀?jì)算機(jī)程序設(shè)計(jì)語言,語法簡潔清晰,具有豐富和強(qiáng)大的庫。常被稱為膠水語言,能夠把用其他語言制作的各種模塊很輕松地聯(lián)結(jié)在一起。RR語言是用于統(tǒng)計(jì)分析、繪圖等的操作環(huán)境(REnvironment),于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。大數(shù)據(jù)分析技術(shù)–阿里云機(jī)器學(xué)習(xí)PAI阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI(PlatformofArtificialIntelligence):是構(gòu)建在阿里云MaxCompute計(jì)算平臺(tái)之上,集數(shù)據(jù)處理、建模、離線預(yù)測、在線預(yù)測為一體的機(jī)器學(xué)習(xí)平臺(tái)。為算法開發(fā)者提供了豐富的MPI、PS、BSP等編程框架和數(shù)據(jù)存儲(chǔ)接口,同時(shí)提供了基于WEB的可視化控制臺(tái),降低了使用門檻。上手簡單通過對底層分布式算法的封裝,提供拖、拉、拽的可視化操作環(huán)境。使機(jī)器學(xué)習(xí)的創(chuàng)建過程像堆積木一樣簡單。算法豐富提供特征過程、數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)框架、預(yù)測評估等100多種算法組件。一站式體驗(yàn)提供模型訓(xùn)練功能,還提供在線預(yù)測功能以及離線調(diào)度功能,讓機(jī)器學(xué)習(xí)訓(xùn)練結(jié)果和業(yè)務(wù)可以無縫銜接。深度學(xué)習(xí)支持目前Tensorflow、Caffe、MXNet、PyTorch主流的機(jī)器學(xué)習(xí)框架,底層提供GPU卡進(jìn)行訓(xùn)練。課程目錄1.什么是大數(shù)據(jù)分析2.大數(shù)據(jù)分析流程、技術(shù)和工具2.1大數(shù)據(jù)采集技術(shù)2.2

大數(shù)據(jù)預(yù)處理技術(shù)2.3大數(shù)據(jù)存儲(chǔ)與管理技術(shù)2.4大數(shù)據(jù)處理技術(shù)2.5大數(shù)據(jù)分析與挖掘技術(shù)2.6大數(shù)據(jù)可視化技術(shù)大數(shù)據(jù)可視化技術(shù)數(shù)據(jù)可視化:利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或者圖像在屏幕上顯示出來進(jìn)行交互處理的理論方法和技術(shù)。數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。數(shù)據(jù)可視化隨著平臺(tái)的拓展、應(yīng)用領(lǐng)域的增加,表現(xiàn)形式的不斷變化,從原始的BI統(tǒng)計(jì)圖表,到不斷增加的諸如實(shí)時(shí)動(dòng)態(tài)效果、地理信息、用戶交互等等。數(shù)據(jù)可視化的概念邊界不斷擴(kuò)大。大數(shù)據(jù)可視化技術(shù)將事物的數(shù)值圖形化:每個(gè)事物的數(shù)值都是一個(gè)數(shù)據(jù),將數(shù)據(jù)的大小以圖形的方式表現(xiàn)。大數(shù)據(jù)可視化技術(shù)將事物圖形化:利用圖形表示事物,方便看圖人員,傳遞信息。大數(shù)據(jù)可視化技術(shù)將事物的關(guān)系圖形化:當(dāng)存在多個(gè)指標(biāo)時(shí),挖掘指標(biāo)之間的關(guān)系,并將其圖形化表達(dá),可提升圖表的可視化深度借助已有的場景表現(xiàn)通過構(gòu)建場景表現(xiàn)。圖1借助宇宙星系的場景來表現(xiàn)操作系統(tǒng)的分布圖2構(gòu)建頒獎(jiǎng)臺(tái)的場景來表現(xiàn)支付寶的年度賬單大數(shù)據(jù)可視化技術(shù)將時(shí)間和空間可視化圖1將時(shí)間進(jìn)行可視化圖2將空間進(jìn)行可視化大數(shù)據(jù)可視化技術(shù)將概念進(jìn)行轉(zhuǎn)換:對數(shù)據(jù)的大小難以感知時(shí),通常進(jìn)行概念轉(zhuǎn)換常用方法有對比和比喻對比:通過對比來讓用戶感知數(shù)據(jù)比喻:通過比喻手法來讓用戶感知數(shù)據(jù)圖1中國的煙民數(shù)量展示圖圖2雅虎郵箱處理的數(shù)據(jù)量大數(shù)據(jù)可視化常見方法統(tǒng)計(jì)圖表:指標(biāo)看板、餅圖、直方圖、散點(diǎn)圖、柱狀圖等傳統(tǒng)BI統(tǒng)計(jì)圖表。2D、3D區(qū)域-使用的地理空間數(shù)據(jù)可視化技術(shù),往往涉及到事物特定表面上的位置。如點(diǎn)分布圖,可以顯示諸如在一定區(qū)域內(nèi)犯罪情況。時(shí)態(tài)-時(shí)態(tài)可視化是數(shù)據(jù)以線性的方式展示。最為關(guān)鍵的是時(shí)態(tài)數(shù)據(jù)可視化有一個(gè)起點(diǎn)和一個(gè)終點(diǎn)。如散點(diǎn)圖顯示諸如某些區(qū)域的溫度信息。多維-可以通過使用常用的多維方法來展示二維或高(多)維度的數(shù)據(jù)。如餅圖,它可以顯示諸如政府開支。分層-分層方法用于呈現(xiàn)多組數(shù)據(jù)。這些數(shù)據(jù)可視化通常展示的是大群體里面的小群體。如樹形圖。網(wǎng)絡(luò)-在網(wǎng)絡(luò)中展示數(shù)據(jù)間的關(guān)系,它是一種常見的展示大數(shù)據(jù)量的方法。大數(shù)據(jù)可視化技術(shù)–常見可視化圖表線圖柱圖餅圖散點(diǎn)圖指標(biāo)看板雷達(dá)圖漏斗圖旋風(fēng)漏斗樹圖來源去向矩陣樹圖儀表盤地圖極坐標(biāo)圖詞云大數(shù)據(jù)可視化技術(shù)–圖表類型的使用場景大數(shù)據(jù)可視化技術(shù)–大屏使用大屏來分析并展示龐雜數(shù)據(jù)的一種數(shù)據(jù)可視化方式。通過豐富的動(dòng)態(tài)、炫目等效果,滿足會(huì)議展覽、業(yè)務(wù)監(jiān)控、風(fēng)險(xiǎn)預(yù)警、地理信息分析等多種業(yè)務(wù)的展示需求。注:圖中展示數(shù)據(jù)為演示數(shù)據(jù),非真實(shí)數(shù)據(jù)。大數(shù)據(jù)可視化技術(shù)–BI工具傳統(tǒng)BI工具代表Cognos、BO、BIEE等:屬于重型BI、預(yù)先形成cube,交付周期長,使用要求較高,升級困難。現(xiàn)代BI工具代表Tableau:圖表制作能力強(qiáng)、探索分析;但大數(shù)據(jù)支持不足、硬件要求高、價(jià)格高。QlikView:開發(fā)使用簡單、多數(shù)據(jù)源;但硬件要求高、界面美觀性一般、價(jià)格較高。阿里云QuickBI:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論