大數(shù)據(jù)分析及應(yīng)用實踐全書課件匯總整本書電子教案(最新)_第1頁
大數(shù)據(jù)分析及應(yīng)用實踐全書課件匯總整本書電子教案(最新)_第2頁
大數(shù)據(jù)分析及應(yīng)用實踐全書課件匯總整本書電子教案(最新)_第3頁
大數(shù)據(jù)分析及應(yīng)用實踐全書課件匯總整本書電子教案(最新)_第4頁
大數(shù)據(jù)分析及應(yīng)用實踐全書課件匯總整本書電子教案(最新)_第5頁
已閱讀5頁,還剩191頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)分析及應(yīng)用實踐第1章 認識大數(shù)據(jù)本章內(nèi)容1.1 大數(shù)據(jù)綜述1.1.1 大數(shù)據(jù)的產(chǎn)生1.1.2 大數(shù)據(jù)的特征1.2 可視化表現(xiàn)形式1.2.1 大數(shù)據(jù)定義1.2.2 大數(shù)據(jù)的基本特征1.3 大數(shù)據(jù)思維1.3.1 大數(shù)據(jù)思維的變革1.3.2 大數(shù)據(jù)思維的關(guān)注點1.4 大數(shù)據(jù)的處理過程1.4.1 大數(shù)據(jù)采集1.4.2 大數(shù)據(jù)導(dǎo)入與預(yù)處理1.4.3 大數(shù)據(jù)統(tǒng)計與分析1.4.4 大數(shù)據(jù)挖掘1.5 大數(shù)據(jù)思維1.5.1 InfoSphere BigInsights簡介1.5.2 BigQuery簡介1.5.3 “魔鏡”簡介1.6 大數(shù)據(jù)的應(yīng)用1.6.1 大數(shù)據(jù)助石油公司智能營銷1.6.2 大數(shù)據(jù)在乳業(yè)

2、公司預(yù)測產(chǎn)奶量實驗1 認識大數(shù)據(jù)分析工具“魔鏡” 1.1 大數(shù)據(jù)綜述 1.1.1 大數(shù)據(jù)的產(chǎn)生 隨著互聯(lián)網(wǎng)逐漸過渡到物聯(lián)網(wǎng),數(shù)據(jù)從而得到爆發(fā)式增長,因而產(chǎn)生了各色各樣的大數(shù)據(jù)。網(wǎng)絡(luò)中互聯(lián)的主體不僅僅是人,可以是智能終端、傳感器、乃至可穿戴設(shè)備等。大數(shù)據(jù)(big data,mega data)又稱巨量數(shù)據(jù),指的是海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)革命正在對世界產(chǎn)生巨大的系統(tǒng)性影響和深遠意義。 1.1.2 大數(shù)據(jù)的特征 與傳統(tǒng)數(shù)據(jù)的產(chǎn)生方式相比,大數(shù)據(jù)具有三個明顯的特征: 數(shù)據(jù)量大:數(shù)據(jù)量大是大數(shù)據(jù)的明顯特征,一般計量單位都是PB、EB甚至ZB。 非結(jié)構(gòu)性:大數(shù)據(jù)既包含結(jié)構(gòu)化數(shù)據(jù)也包含非結(jié)構(gòu)

3、化數(shù)據(jù),而且通過特定的大數(shù)據(jù)技術(shù)從大量非結(jié)構(gòu)化數(shù)據(jù)中提取有用的信息。 實時性:在互聯(lián)網(wǎng)高速發(fā)展的背景下,我們所談到的大數(shù)據(jù)不僅僅數(shù)量巨大,實時性、動態(tài)性成了大數(shù)據(jù)的另一重要特征。1.2 大數(shù)據(jù)概念 1.2.1 大數(shù)據(jù)定義 麥肯錫(美國首屈一指的咨詢公司)是研究大數(shù)據(jù)的先驅(qū)。在其報告Bigdata:Thenextfrontierforinnovation,competition,andproductivity中給出的大數(shù)據(jù)定義是:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。即大數(shù)據(jù)是現(xiàn)有數(shù)據(jù)庫管理工具和傳統(tǒng)數(shù)據(jù)處理手段很難處理的大型、復(fù)雜的數(shù)據(jù)集,其涉及到采集、存儲、

4、搜索、共享、傳輸和可視化等方面。 1.2.2 大數(shù)據(jù)的基本特點 大數(shù)據(jù)的特點可歸納為“4V”,即Volume(容量),即海量的數(shù)據(jù)規(guī)模; Variety(種類),即多樣的數(shù)據(jù)類型; Velocity(速度),即快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系;最重要的Value(價值),即巨大的數(shù)據(jù)價值。1.3 大數(shù)據(jù)思維 1.3.1 大數(shù)據(jù)思維的變革 大數(shù)據(jù)時代將帶來深刻的思維轉(zhuǎn)變,大數(shù)據(jù)不僅將改變每個人的日常生活和工作方式,改變商業(yè)組織和社會組織的運行方式。 1.從樣本思維到總體思維意識的變革。 2.容錯思維意識的變革。 3.從關(guān)注因果關(guān)系到相關(guān)關(guān)系的思維變革。 4.從自然思維到智能思維的變革。 1.3.2

5、 大數(shù)據(jù)思維的關(guān)注點 大數(shù)據(jù)思維是客觀存在,大數(shù)據(jù)思維是新的思維觀。大數(shù)據(jù)思維開啟了一次重大的時代轉(zhuǎn)型,人們對數(shù)據(jù)的關(guān)注點也發(fā)生了很大變化。 1.數(shù)據(jù)思維的最核心是利用數(shù)據(jù)解決問題。 2.大數(shù)據(jù)關(guān)注“有用”。 3.由關(guān)注精確度轉(zhuǎn)變?yōu)殛P(guān)注效率。 4.關(guān)注定制產(chǎn)品。 1.4大數(shù)據(jù)的處理過程 1.4.1 大數(shù)據(jù)采集 在計算機廣泛應(yīng)用的今天,數(shù)據(jù)采集的重要性是十分顯著的。它是計算機與外部物理世界連接的橋梁。各種類型信號采集的難易程度差別很大。數(shù)據(jù)采集系統(tǒng)是結(jié)合基于計算機或者其他專用測試平臺的測量軟硬件產(chǎn)品來實現(xiàn)靈活的、用戶自定義的測量系統(tǒng)。數(shù)據(jù)采集技術(shù)廣泛應(yīng)用在各個領(lǐng)域,比如攝像頭,麥克風(fēng),都是數(shù)據(jù)采

6、集工具。 1.4.2 大數(shù)據(jù)導(dǎo)入/預(yù)處理 雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。 1.4.3 大數(shù)據(jù)統(tǒng)計與分析 大數(shù)據(jù)時代的來臨將對我們的現(xiàn)實生活、企業(yè)的運營管理模式提出了新的挑戰(zhàn),也帶來新的市場機會。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些數(shù)據(jù)進行專業(yè)化處理。可以說大數(shù)據(jù)分析是決策過程中的決定性因素,也是大數(shù)據(jù)時代發(fā)揮數(shù)據(jù)價值的關(guān)鍵環(huán)節(jié)。大數(shù)據(jù)分析技術(shù)幫助企業(yè)了解客戶、鎖定資源、規(guī)劃生產(chǎn)、開拓新的業(yè)務(wù)。 1.4.

7、4 大數(shù)據(jù)挖掘 從海量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,把這些數(shù)據(jù)轉(zhuǎn)化成有組織的知識,這種需求導(dǎo)致了大數(shù)據(jù)挖掘的誕生。 數(shù)據(jù)挖掘主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預(yù)測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。1.5 大數(shù)據(jù)分析工具簡介 1.InfoSphere BigInsights 由IBM推出的大數(shù)據(jù)平臺InfoSphere BigInsights為用于處理流數(shù)據(jù)和持久性數(shù)據(jù)的軟件。旨在幫助公司從大量不同范圍的數(shù)據(jù)中挖掘商機并進行分析,為了能夠?qū)Υ罅控S富的數(shù)據(jù)進行篩選,BigInsights 提供了內(nèi)置分析技術(shù)和無分享硬件集群。它可以透明地分配存儲在附加至集群中各

8、種節(jié)點的磁盤上的文件數(shù)據(jù),將應(yīng)用程序的子任務(wù)分配給位于目標數(shù)據(jù)子集附近的處理器。 2.BigQuery BigQuery是Google推出的一項Web服務(wù),該服務(wù)讓開發(fā)者可以使用Google的架構(gòu)來運行SQL語句對超級大的數(shù)據(jù)庫進行操作。BigQuery旨在分析數(shù)十億行近似的數(shù)據(jù),使用類SQL語法。BigQuery支持分析交互風(fēng)格,使用SELECT命令構(gòu)建查詢。查詢語言包括支持標準操作,比如joining、sorting和grouping,以及內(nèi)嵌數(shù)據(jù)結(jié)構(gòu)。可以支持統(tǒng)計函數(shù),比如count、sum、average、variance和standard deviation(標準偏差)等。 3.魔鏡

9、(moojnn) 大數(shù)據(jù)可視化處理軟件魔鏡為國云數(shù)據(jù)科技有限公司研發(fā),為我國大數(shù)據(jù)領(lǐng)域領(lǐng)先的分析平臺。 魔鏡支持各種各樣的數(shù)據(jù)源。無論是Excel文件、傳統(tǒng)數(shù)據(jù)庫、大數(shù)據(jù)、集成數(shù)據(jù),甚至微博微信淘寶,魔鏡都可以支持。 魔鏡顛覆傳統(tǒng)Excel分析和報表工具,自動拖拽建模。操作簡單、應(yīng)用方便。魔鏡中現(xiàn)為我國最大的可視化分析挖掘平臺、開放的數(shù)據(jù)市場和擁有超大的視覺效果庫。 目前,已超過一萬多家企業(yè)在使用,魔鏡為提供全行業(yè)大數(shù)據(jù)解決方案。1.6 大數(shù)據(jù)應(yīng)用案例 1.6.1 大數(shù)據(jù)助石油公司精準管理、智能營銷 國內(nèi)某石油公司希望通過其龐大的銷售數(shù)據(jù)了解到銷售代表的銷售業(yè)績與KPI,希望能從各個角度對整體

10、的銷售數(shù)據(jù)進行切片分析并根據(jù)市場走勢制定合適的營銷策略。 該企業(yè)選擇大數(shù)據(jù)分析工具魔鏡來預(yù)測綜合市場指數(shù),全維度的分析數(shù)據(jù)并挖掘出數(shù)據(jù)背后隱藏的巨大的價值。員工KPI考核指標客戶分析石油生產(chǎn)流程監(jiān)控管理 1.6.2大數(shù)據(jù)在乳業(yè)公司預(yù)測產(chǎn)量值 國內(nèi)某乳業(yè)公司為了保證提供優(yōu)質(zhì)的鮮乳原料,實現(xiàn)真正意義上的“橫跨東西、縱跨南北”的戰(zhàn)略布局,其原奶事業(yè)部想對取決于五大區(qū)的奶牛產(chǎn)奶量和奶牛數(shù)量的供奶量進行預(yù)測。 同時,供奶地區(qū)較多,地域跨度大,奶牛存欄情況和不同泌乳周期的產(chǎn)奶量等都各不相同,而原奶事業(yè)部自身的可視化展示效果較為單一。如何將不同的地域、不同的產(chǎn)奶量等用多元的可視化效果展示都是原奶事業(yè)部想要解

11、決的問題。新投產(chǎn)泌乳牛的數(shù)量情況 大數(shù)據(jù)分析工具魔鏡為改乳業(yè)公司建立的奶量預(yù)測系統(tǒng)是通過業(yè)務(wù)邏輯,以歷史供奶量為基準進行估算和預(yù)測的。大數(shù)據(jù)分析工具魔鏡的大數(shù)據(jù)挖掘功能可以通過歷史數(shù)據(jù),并利用邏輯回歸算法進行數(shù)據(jù)預(yù)測。預(yù)測置信度高,但前期的數(shù)據(jù)積累必不可少。未來對奶量的預(yù)測還應(yīng)建立業(yè)務(wù)模型,列舉影響供奶的內(nèi)外因,設(shè)置權(quán)重,從而回歸預(yù)測。謝 謝 !第2章 大數(shù)據(jù)技術(shù)基礎(chǔ)2.1 基礎(chǔ)架構(gòu)支持2.1.1 Hadoop2.1.2 Hbase2.1.3 MapReduce2.1.4 Hive2.1.5 Pig2.1.6 R語言2.2 云計算2.2.1 云計算的特點2.2.2 云計算與大數(shù)據(jù)2.3 數(shù)據(jù)采

12、集2.3.1 數(shù)據(jù)采集的意義2.3.2 數(shù)據(jù)采集的方法2.4 數(shù)據(jù)存儲2.4.1 數(shù)據(jù)存儲的概念2.4.2 數(shù)據(jù)存儲方式2.4.3 常見數(shù)據(jù)源類型實驗1 識大數(shù)據(jù)分析工具“魔鏡” 本章內(nèi)容 目前,建立在大數(shù)據(jù)基礎(chǔ)之上的大分析系統(tǒng)有兩個探索方向。 方向之一是:互聯(lián)網(wǎng)企業(yè)直接在Hadoop基礎(chǔ)之上,借助于云計算模式,通過加強開源數(shù)據(jù)庫系統(tǒng)Hive/Hbase等工具能力,逐步提升大分析所需的分析能力。 方向之二是:傳統(tǒng)的數(shù)據(jù)倉庫處理廠家引入Hadoop云計算的技術(shù),擴展原有的信息處理能力,融合傳統(tǒng)數(shù)據(jù)倉庫能力和Hadoop云計算能力,在應(yīng)用層支撐更豐富的大分析能力。不管怎樣,進行大數(shù)據(jù)的大分析,需要

13、一定的架構(gòu)支撐和技術(shù)支持。2.1 基礎(chǔ)架構(gòu)支持2.1.1 HadoopHadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)。Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。Hadoop之父Hadoop Hadoop項目的發(fā)起人為Doug Cutting,稱之為Hadoop之父。1985年,C

14、utting畢業(yè)于美國斯坦福大學(xué)。Doug Cutting主導(dǎo)的Apache Nutch項目是Hadoop軟件的源頭,該項目始于2002年,是Apache Lucene 的子項目之一。Hadoop技術(shù)架構(gòu) 2.1.2 HBase HBase是運行在Hadoop上的NoSQL數(shù)據(jù)庫,它是一個分布式的和可擴展的大數(shù)據(jù)倉庫,也就是說HBase具有HDFS的分布式處理的優(yōu)勢,HBase本身就是十分強大的數(shù)據(jù)庫,它能夠融合key/value存儲模式帶來實時查詢的能力,以及通過MapReduce進行離線處理或者批處理的能力。 HBase不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。 所謂

15、非結(jié)構(gòu)化數(shù)據(jù)存儲就是說HBase是基于列的而不是基于行的模式。2.1.3 MapReduceMapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。Map-映射,Reduce-歸約。MapReduce采用分而治之的思想,把對大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個主節(jié)點管理下的各個分節(jié)點共同完成,然后通過整合各個節(jié)點的中間結(jié)果,得到最終結(jié)果。簡單地說,MapReduce就是任務(wù)的分解與結(jié)果的匯總。在Hadoop中,每個MapReduce任務(wù)都被初始化為一個Job,每個Job又可以分為兩種階段:map階段和reduce階段。這兩個階段分別用兩個函數(shù)表示,即map函數(shù)和reduce函數(shù)。

16、map函數(shù)接收一個形式的輸入,然后同樣產(chǎn)生一個形式的中間輸出,Hadoop函數(shù)接收一個如形式的輸入,然后對這個value集合進行處理,每個reduce產(chǎn)生0或1個輸出,reduce的輸出也是形式的。 2.1.4 Hive Hive是建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop 中的大規(guī)模數(shù)據(jù)的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時,這個語言也允許熟悉 MapReduce 開發(fā)者的開發(fā)自定義的 mapper 和 reduce

17、r 來處理內(nèi)建的 mapper 和 reducer 無法完成的復(fù)雜的分析工作。2.1.5 PigPig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig包含兩個部分:Pig Interface,Pig Latin。它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算。Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡單的操作和編程接口。 2.1.6 R語言 R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。其功能包括: 數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計

18、制圖功能;簡便而強大的編程語言:可操縱數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán)。 R語言擅長在Hadoop分布式文件系統(tǒng)中存儲的非結(jié)構(gòu)化數(shù)據(jù)的分析。R現(xiàn)在還可以運行在HBase這種非關(guān)系型的數(shù)據(jù)庫以及面向列的分布式數(shù)據(jù)存儲之上。 2.2 云計算 云計算技術(shù)是硬件技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段而出現(xiàn)的一種新的技術(shù)模型。云計算是分布式存儲、網(wǎng)格計算、虛擬化、負載均衡、熱備份冗余等傳統(tǒng)計算機和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。云計算是一種計算模型,它將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,使用戶能夠按照自己的需要獲取計算、存儲和信息服務(wù)。這里提到的資源池也稱為“云”?!霸啤笔且恍┛梢赃M行自我維護和自我管理的虛擬計算

19、資源,通常是一些大型服務(wù)器集群,包括計算服務(wù)器、存儲服務(wù)器和寬帶資源等。2.2.1 云計算的特點 1.可擴展性:從資源低效率的分散使用到資源高效的集約化使用正是云計算的基本特征之一。 2.按需提供資源服務(wù):云計算系統(tǒng)實現(xiàn)按需向用戶提供資源能大大節(jié)省用戶的硬件資源開支。 3.虛擬化:現(xiàn)在的云計算平臺的重要特點是利用軟件來實現(xiàn)硬件資源的虛擬化管理、調(diào)試及應(yīng)用。 4.超大規(guī)模:應(yīng)用于“云”的服務(wù)器數(shù)量就在幾十萬甚至上百萬之多,“云”也會給用戶帶來前所未有的計算能力。 5.高可靠性和安全性:在使用“云”的服務(wù)的過程中,服務(wù)器使用了數(shù)據(jù)多副本容錯、計算節(jié)點同構(gòu)可互換等措施在保障服務(wù)的高可靠性。 2.2.

20、2 云計算與大數(shù)據(jù) 云計算與大數(shù)據(jù)之間是相輔相成,相得益彰的關(guān)系。云計算就是硬件資源的虛擬化;大數(shù)據(jù)分析就是海量數(shù)據(jù)的高效處理。大數(shù)據(jù)挖掘處理需要云計算作為平臺,而大數(shù)據(jù)涵蓋的價值和規(guī)律則能夠使云計算更好的與行業(yè)應(yīng)用結(jié)合并發(fā)揮更大的作用。云計算將計算資源作為服務(wù)支撐大數(shù)據(jù)的挖掘,而大數(shù)據(jù)的發(fā)展趨勢是對實時交互的海量數(shù)據(jù)查詢、分析提供了各自需要的價值信息。2.3 數(shù)據(jù)采集2.3.1 數(shù)據(jù)采集的意義 足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),數(shù)據(jù)采集成為大數(shù)據(jù)分析的前奏。數(shù)據(jù)采集是大數(shù)據(jù)價值挖掘中重要的一環(huán),其后的分析挖掘都是建立在數(shù)據(jù)采集的基礎(chǔ)之上。 在計算機廣泛應(yīng)用的今天,數(shù)據(jù)采集的重要性是十分

21、顯著的。各種類型信號采集的難易程度差別很大。實際采集時,噪聲也可能帶來一些麻煩。數(shù)據(jù)采集時,有一些基本原理要注意,還有更多的實際的問題要解決。2.3.2 數(shù)據(jù)采集的方法1.基于物聯(lián)網(wǎng)采集方法2.系統(tǒng)日志采集方法3.網(wǎng)絡(luò)數(shù)據(jù)采集方法4.其他數(shù)據(jù)采集方法2.4 大數(shù)據(jù)存儲2.4.1數(shù)據(jù)存儲的概念 大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點。大數(shù)據(jù)存儲由于其本身存在的4V特征,傳統(tǒng)的存儲技術(shù)不能滿足大數(shù)據(jù)存儲的需要,通過ETL技術(shù)數(shù)據(jù)資源被從源系統(tǒng)中提取,并被轉(zhuǎn)換為一個標準的格式,再使用NoSQL數(shù)據(jù)庫進行數(shù)據(jù)庫存取管理,通過分布式網(wǎng)絡(luò)文件系統(tǒng)將數(shù)據(jù)信息存儲在整個互聯(lián)網(wǎng)絡(luò)資

22、源中,并用可視化的操作界面隨時滿足用戶的數(shù)據(jù)處理需求。 2.4.2 數(shù)據(jù)存儲方式 針對大數(shù)據(jù)的存儲,主要采用以下兩種存儲方式。 1.開放系統(tǒng)的直連式存儲(Direct Attached Storage,DAS),外部存儲設(shè)備都是直接掛接在服務(wù)器內(nèi)部總線上,數(shù)據(jù)存儲設(shè)備是整個服務(wù)器結(jié)構(gòu)的一部分。直連存儲無法共享,因此經(jīng)常出現(xiàn)的情況是某臺服務(wù)器的存儲空間不足,而其他一些服務(wù)器卻有大量的存儲空間處于閑置狀態(tài)卻無法利用。 2.網(wǎng)絡(luò)附加存儲(Network Attached Storage,NAS),它采用獨立于服務(wù)器,單獨為網(wǎng)絡(luò)數(shù)據(jù)存儲而開發(fā)的一種文件服務(wù)器來連接所存儲設(shè)備。這樣數(shù)據(jù)存儲就不再是服務(wù)器

23、的附屬,而是作為獨立網(wǎng)絡(luò)節(jié)點而存在于網(wǎng)絡(luò)之中,可由所有的網(wǎng)絡(luò)用戶共享。2.4.3 常見數(shù)據(jù)源類型1.文本類型:如Excel、TXT、CSV等。2.數(shù)據(jù)庫類型:如MySQL、SQLSever、Oracle、PostgreSQL等。3.數(shù)據(jù)集群類型:Hive、Spark等。謝 謝 !第3章 大數(shù)據(jù)管理本章內(nèi)容3.1 大數(shù)據(jù)的清洗3.1.1 數(shù)據(jù)質(zhì)量3.1.2 數(shù)據(jù)清洗的作用3.1.3 數(shù)據(jù)清洗的方法和過程3.1.4 數(shù)據(jù)清洗實例3.2 數(shù)據(jù)類型和數(shù)據(jù)轉(zhuǎn)換3.2.1 數(shù)據(jù)類型3.2.2 數(shù)據(jù)轉(zhuǎn)換3.3 大數(shù)據(jù)的提取和加載實驗3 數(shù)據(jù)處理3.1 大數(shù)據(jù)的清洗 大數(shù)據(jù)時代下,管理的關(guān)鍵依靠著數(shù)據(jù),但隨著

24、信息量的不斷增長、智慧工具的不斷涌現(xiàn),如何對數(shù)據(jù)進行有效清洗實現(xiàn)數(shù)據(jù)的真實性,有效性,唯一性變得十分具有挑戰(zhàn)。為了使數(shù)據(jù)的記錄更準確、一致,消除重復(fù)和異常記錄就變得很重要,所以數(shù)據(jù)預(yù)處理工作是相當必要的。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理的一個重要環(huán)節(jié),在大數(shù)據(jù)分析過程中占據(jù)重要位置。 3.1.1 數(shù)據(jù)質(zhì)量 1.數(shù)據(jù)質(zhì)量的四大要素 在技術(shù)發(fā)展的不同階段,對數(shù)據(jù)質(zhì)量有不同的定義和標準。早期對數(shù)據(jù)質(zhì)量的評價標準主要以數(shù)據(jù)準確性為出發(fā)點,隨著信息系統(tǒng)功能和定位的不斷延伸,用戶關(guān)心的重點逐步由數(shù)據(jù)準確性擴展至合法性、一致性等方面。歸納起來,數(shù)據(jù)質(zhì)量具有四大要素: 完整性 一致性 準確性 及時性2. 數(shù)據(jù)質(zhì)量管理的

25、關(guān)鍵 制訂規(guī)范的數(shù)據(jù)質(zhì)量度量標準建立有效的數(shù)據(jù)質(zhì)量監(jiān)管體系建立完善的數(shù)據(jù)質(zhì)量管理制度 3.1.2 數(shù)據(jù)清洗的作用 數(shù)據(jù)清洗就是按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,過濾不符合要求的數(shù)據(jù),主要包括不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù),然后將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認是否過濾掉還是修正之后再進行提取。因此如何對數(shù)據(jù)進行有效的清理和轉(zhuǎn)換,使之成為符合數(shù)據(jù)分析要求的數(shù)據(jù)源,是影響數(shù)據(jù)分析準確性的關(guān)鍵因素。3.1.3 數(shù)據(jù)清洗的方法和過程1. 數(shù)據(jù)清洗的方法 通過人工檢查 通過專門編寫的應(yīng)用程序 針對特定應(yīng)用領(lǐng)域的數(shù)據(jù)清理 針對與特定應(yīng)用領(lǐng)域無關(guān)的數(shù)據(jù)清理3.1.3 數(shù)據(jù)清洗的方法和過程2. 數(shù)據(jù)清

26、洗的過程第一階段:數(shù)據(jù)分析、定義錯誤類型第二階段:搜索、識別錯誤記錄第三階段:修正錯誤3.1.4 數(shù)據(jù)清洗的實例DataEye 原始數(shù)據(jù)源提供一組游戲下載時長數(shù)據(jù)集 如果直接計算游戲平均下載時長,得到的結(jié)果為23 062.57 秒,約6.4小時,與實際情況嚴重不符,說明這一數(shù)據(jù)集受到噪聲數(shù)據(jù)的顯著影響。3.1.4 數(shù)據(jù)清洗的實例將數(shù)據(jù)集等分為240 300 個區(qū)間,找到數(shù)據(jù)集中區(qū)域0,3 266.376,對取值之間的數(shù)據(jù)做箱型圖分析,對此區(qū)間外的數(shù)據(jù)剔除離群值,重新計算平均下載時長最后計算目標數(shù)據(jù)源的平均下載時長為192.93 秒,約3.22 分,符合實際情況。通過數(shù)據(jù)分布特征及箱型圖的方法來

27、識別、剔除噪聲數(shù)據(jù)較為快捷且效果顯著。3.2.1 數(shù)據(jù)類型1. 整理數(shù)據(jù)類型(1)INT(或INTEGER)數(shù)據(jù)類型;(2)SMALLINT 數(shù)據(jù)類型(3)TINYINT 數(shù)據(jù)類型;(4)BIGINT 數(shù)據(jù)類型2. 浮點數(shù)據(jù)類型(1)REAL 數(shù)據(jù)類型;(2)FLOAT 數(shù)據(jù)類型(3)DECIMAL 數(shù)據(jù)類型;(4)NUMERIC 數(shù)據(jù)類型3. 二進制數(shù)據(jù)類型(1)BINARY 數(shù)據(jù)類型 ;(2)VARBINARY 數(shù)據(jù)類型 3.2 數(shù)據(jù)類型和數(shù)據(jù)轉(zhuǎn)換3.2.1 數(shù)據(jù)類型4. 邏輯數(shù)據(jù)類型 BIT 數(shù)據(jù)類型5. 字符數(shù)據(jù)類型(1)CHAR 數(shù)據(jù)類型;(2)NCHAR 數(shù)據(jù)類型(3)VARCHA

28、R 數(shù)據(jù)類型;(4)NVARCHAR 數(shù)據(jù)類型6. 文本和圖像數(shù)據(jù)類型(1)TEXT 數(shù)據(jù)類型;(2)NTEXT 數(shù)據(jù)類型;(3)IMAGE 數(shù)據(jù)類型7. 日期和時間數(shù)據(jù)類型 DATETIME 數(shù)據(jù)類型用于存儲日期和時間3.2.2 數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)從一種表示形式變?yōu)榱硪环N表示形式的過程。由于每一個軟件后臺數(shù)據(jù)庫的構(gòu)架與數(shù)據(jù)的存儲形式都是不相同的,因此就需要對數(shù)據(jù)進行轉(zhuǎn)換。例如,對兩個操作數(shù)進行運算,當操作數(shù)的類型不同,而且不屬于基本數(shù)據(jù)類型時,經(jīng)常需要將操作數(shù)轉(zhuǎn)換為所需要的類型,這個過程即為強制類型轉(zhuǎn)換。強制類型轉(zhuǎn)換有兩種形式:顯式強制類型轉(zhuǎn)換和隱式強制類型轉(zhuǎn)換。3.3 大數(shù)據(jù)的提取

29、和加載 大數(shù)據(jù)的提取和加載是指將轉(zhuǎn)換好的數(shù)據(jù)保存到數(shù)據(jù)倉庫中去。大數(shù)據(jù)在加載時一般采用兩種方式:完全刷新加載從技術(shù)角度上說,完全刷新加載比增量提取和加載要簡單得多,它適用于數(shù)據(jù)量不大并且時間代價和條件代價較小的情況。增量提取和加載如何精準快速地捕獲變化的數(shù)據(jù)是實現(xiàn)數(shù)據(jù)增量加載的關(guān)鍵。(1)觸發(fā)器方式;(2)時間戳方式;(3)全表比對方式(4)日志表方式;(5)系統(tǒng)日志分析方式謝 謝 !第四章 大數(shù)據(jù)統(tǒng)計分析技術(shù)4.1 統(tǒng)計分析概述4.1.1 統(tǒng)計分析的概念4.1.2 統(tǒng)計分析的特點4.1.3 統(tǒng)計分析的應(yīng)用4.2 統(tǒng)計分析的常見指標4.2.1 統(tǒng)計指標概述4.2.2 總量指標4.2.3 相對指

30、標4.2.4 平均指標4.2.5 變異指標4.3 回歸與預(yù)測4.3.1 回歸4.3.2 預(yù)測實驗4 數(shù)據(jù)分析本章內(nèi)容4.1 統(tǒng)計分析概述4.1.1 統(tǒng)計分析的概念統(tǒng)計分析是指運用統(tǒng)計方法及與分析對象有關(guān)的知識,定量與定性相結(jié)合對樣本數(shù)據(jù)進行的研究活動。4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.1統(tǒng)計分析的概念大數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用的信息以及對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.1統(tǒng)計分析的概念統(tǒng)計分析的意義幫助企業(yè)了解客戶、鎖定資源、規(guī)劃生產(chǎn)、開拓新的業(yè)務(wù);通過對消費者愛好、需求以及對品牌忠誠度等因素進行大數(shù)據(jù)分析

31、,來制定服務(wù)和營銷的智能決策;通過對通信、金融活動記錄的大數(shù)據(jù)分析,來精準地拓展業(yè)務(wù)和更好地服務(wù)客戶4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.2統(tǒng)計分析的特點傳統(tǒng)統(tǒng)計分析的特點 目的與對象相統(tǒng)一 定性與定量相結(jié)合 系統(tǒng)性與全面性 原則性能動性 變化性 4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.2統(tǒng)計分析的特點大數(shù)據(jù)統(tǒng)計分析的特點 宏觀與微觀相統(tǒng)一 方法理論尚未成熟 全樣本采樣,實時性分析人才專業(yè)性較強能動性 變化性 4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.3統(tǒng)計分析的應(yīng)用大數(shù)據(jù)幫能源公司設(shè)置發(fā)電機地點 丹麥能源公司維斯塔斯(Vestas Wind Systems)將利用業(yè)界領(lǐng)先的IBM大數(shù)據(jù)分析軟件和卓

32、越的IBM系統(tǒng)優(yōu)化風(fēng)力渦輪機配置方案,從而實現(xiàn)最高效的能量輸出。4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.3統(tǒng)計分析的應(yīng)用大數(shù)據(jù)幫零售企業(yè)制定促銷策略 沃爾瑪對其顧客的購物行為進行了購物籃關(guān)聯(lián)規(guī)則分析,結(jié)果是得到了尿不濕與啤酒的銷售量雙雙增長。4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.3統(tǒng)計分析的應(yīng)用大數(shù)據(jù)對交通行為預(yù)測基于用戶和車輛的LBS定位數(shù)據(jù),分析人車出行的個體和群體特征,進行交通行為的預(yù)測。4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.3統(tǒng)計分析的應(yīng)用大數(shù)據(jù)對疾病疫情預(yù)測 google成功預(yù)測了2009冬季流感的傳播甚至可以具體到特定的地區(qū)和州。4.1大數(shù)據(jù)統(tǒng)計分析的核心思想4.1.3統(tǒng)計分析的應(yīng)用

33、大數(shù)據(jù)幫助奧巴馬大選連任成功 2012年11月奧巴馬大選連任成功的勝利果實也被歸功于大數(shù)據(jù)深入數(shù)據(jù)挖掘。4.2 統(tǒng)計分析的常見指標4.2.1統(tǒng)計分析指標概述統(tǒng)計指標簡稱指標,是反映同類社會經(jīng)濟現(xiàn)象總體綜合數(shù)量特征的范疇及其具體數(shù)值。對統(tǒng)計指標通常有兩種理解和使用方法:一是用來反映總體現(xiàn)象總體數(shù)量狀況的基本概念,例如年末全國人口總數(shù)、全年國內(nèi)生產(chǎn)總值、國內(nèi)生產(chǎn)總值年度總長率等。二是反映現(xiàn)象總體數(shù)量狀況的概念和數(shù)值。例如,2001年我國年末總?cè)丝跀?shù)為127,627萬人、全社會固定產(chǎn)投資增長率為13%等 。4.2 統(tǒng)計分析的常見指標4.2.1統(tǒng)計分析指標概述統(tǒng)計指標特點:總體性 具體性 4.2 統(tǒng)計

34、分析的常見指標4.2.1統(tǒng)計分析指標概述統(tǒng)計指標的種類:按統(tǒng)計指標所說明的總體現(xiàn)象內(nèi)容不同,可分為數(shù)量指標和質(zhì)量指標; 按統(tǒng)計指標按作用和表現(xiàn)形式不同,可分為總量指標、相對指標、平均指標、標志變異指標四類; 按統(tǒng)計指標的作用和功能的不同,可以分為描述指標、評價指標、監(jiān)測指標和預(yù)警指標; 4.2 統(tǒng)計分析的常見指標4.2.1統(tǒng)計分析指標概述統(tǒng)計指標體系是由若干個相互聯(lián)系、相互作用的統(tǒng)計指標組成的整體,用以說明所研究社會經(jīng)濟現(xiàn)象各方面相互依存和相互制約的關(guān)系。 通過數(shù)學(xué)公式形式表現(xiàn)出來的統(tǒng)計指標體系。例如,工業(yè)總產(chǎn)值=工業(yè)產(chǎn)品產(chǎn)量產(chǎn)品價格商品銷售額。 指標之間不存在數(shù)學(xué)公式形式的關(guān)系,而只是存在著

35、一種相互聯(lián)系、相互補充的關(guān)系。例如,反映國內(nèi)商品流轉(zhuǎn)情況的指標(購進量、銷售量、調(diào)撥量、庫存量)所形成的指標體系; 4.2 統(tǒng)計分析的常見指標4.2.2總量指標總量指標是反映社會經(jīng)濟現(xiàn)象在一定時間、空間條件下的總規(guī)模或總水平的最基本的綜合指標,用絕對數(shù)表示,因此,總量指標又叫統(tǒng)計絕對數(shù)。如某企業(yè)去年總工資100萬元,去年上半年總工資30萬元,相減得去年下半年總工資。比如每年的政府工作報告都會公布關(guān)乎國計民生的重要總量指標。4.2 統(tǒng)計分析的常見指標4.2.2總量指標總量指標的作用:是認識社會經(jīng)濟現(xiàn)象的起點;是實行社會經(jīng)濟管理的依據(jù)之一; 是計算相對指標和平均指標的基礎(chǔ);4.2 統(tǒng)計分析的常見指

36、標4.2.2總量指標總量指標的種類:總體單位總量指標和總體標志總量指標;時期指標和時點指標; 4.2 統(tǒng)計分析的常見指標4.2.2總量指標總量指標的計量單位: 實物單位;價值單位; 勞動單位;4.2 統(tǒng)計分析的常見指標4.2.2總量指標總量指標的計算方法 : 直接計算法它是對研究對象用直接的計數(shù)、點數(shù)和測量等方法,登記各單位的具體數(shù)值加以匯總,得到總量指標。如統(tǒng)計報表或普查中的總量資料,基本上都是用直接計算法計算出來的。間接推算法它是采用社會經(jīng)濟現(xiàn)象之間的平衡關(guān)系、因果關(guān)系、比例關(guān)系或利用非全面調(diào)查資料進行推算總量的方法。如利用樣本資料推斷某種農(nóng)產(chǎn)品的產(chǎn)量,利用平衡關(guān)系推算某種商品的庫存量等。

37、4.2 統(tǒng)計分析的常見指標4.2.3 相對指標相對指標又稱相對數(shù),是應(yīng)用對比的方法,將兩個相互聯(lián)系的指標數(shù)值加以對比計算的一種比值,用來說明現(xiàn)象之間的數(shù)量對比關(guān)系。其數(shù)值表現(xiàn)為相對數(shù),如比重、比例、速度、程度、密度。比如2008年6月27日國內(nèi)外主要鋼鐵企業(yè)的PE估值對比。相對數(shù)指標計算公式為:相對指標=分子/分母(基數(shù)) 4.2 統(tǒng)計分析的常見指標4.2.3 相對指標相對指標又稱相對數(shù),是應(yīng)用對比的方法,將兩個相互聯(lián)系的指標數(shù)值加以對比計算的一種比值,用來說明現(xiàn)象之間的數(shù)量對比關(guān)系。其數(shù)值表現(xiàn)為相對數(shù),如比重、比例、速度、程度、密度。比如2008年6月27日國內(nèi)外主要鋼鐵企業(yè)的PE估值對比。

38、相對數(shù)指標計算公式為:相對指標=分子/分母(基數(shù)) 4.2 統(tǒng)計分析的常見指標4.2.3 相對指標相對指標的作用 :反映現(xiàn)象之間的相互聯(lián)系程度,說明總體現(xiàn)象的質(zhì)量、經(jīng)濟效益和經(jīng)濟實力情況。使原來不能直接相比的數(shù)量關(guān)系變?yōu)榭杀?,有利于對所研究失誤進行分析比較。表明事物的發(fā)展程度、內(nèi)部結(jié)構(gòu)以及比例關(guān)系,為人們深刻認識事物提供依據(jù)。4.2 統(tǒng)計分析的常見指標4.2.3 相對指標相對指標的種類和計算原則 (1)同一總體內(nèi)部之比的相對指標計劃完成程度相對指標:是用現(xiàn)象在某一段時間內(nèi)同一總體的實際完成數(shù)與計劃數(shù)對比的相對數(shù),一般用百分數(shù)表示,基本公式為:4.2 統(tǒng)計分析的常見指標4.2.3 相對指標(1)

39、同一總體內(nèi)部之比的相對指標結(jié)構(gòu)相對指標:結(jié)構(gòu)相對指標(又稱比重)是利用分組法,將總體區(qū)分為不同特征的各部分,以部分總量與總體總量對比求得比重或比率來反映總體內(nèi)部組成狀況的綜合指標。它是分組的基礎(chǔ)上計算出來的一種相對數(shù)。基本公式為:4.2 統(tǒng)計分析的常見指標4.2.3 相對指標相對指標的種類和計算原則 (1)同一總體內(nèi)部之比的相對指標比例相對指標:比例相對指標是在總體分組的基礎(chǔ)上,各組成部分之間的數(shù)量對比的比值,反映總體內(nèi)部的比例關(guān)系。是同一總體內(nèi)不同部分之比,基本公式為:4.2 統(tǒng)計分析的常見指標4.2.3 相對指標相對指標的種類和計算原則 (1)同一總體內(nèi)部之比的相對指標動態(tài)相對指標:動態(tài)相

40、對指標是同一總體中同一指標在不同時間上的指標數(shù)值對比,以表明現(xiàn)象的發(fā)展速度。統(tǒng)計上把用來作為比較標準的時期稱為基期,把和基期對比的時期稱為報告期,計算公式為:4.2 統(tǒng)計分析的常見指標4.2.3 相對指標(2)兩個總體之間對比的相對指標比較相對指標:就是由不同單位的性質(zhì)相同的指標對比而確定的相對指標,說明某一種現(xiàn)象在同一時間內(nèi)各單位發(fā)展的不平衡程度。一般用百分數(shù)、系數(shù)或倍數(shù)表示,計算公式為:4.2 統(tǒng)計分析的常見指標4.2.3 相對指標(2)兩個總體之間對比的相對指標強度相對指標:不屬于同一總體的兩個性質(zhì)不同但相互間有聯(lián)系的總量指標對比的比值,用來反映現(xiàn)象的強度、密度和普遍程度、利用程度的綜合

41、指標,計算公式為: 4.2 統(tǒng)計分析的常見指標4.2.3 相對指標例如,某工廠生產(chǎn)產(chǎn)品A,全年計劃生產(chǎn)100臺,到三季度結(jié)束分別生產(chǎn)了90臺。最后全年生產(chǎn)了120臺。去年全年生產(chǎn)了90臺。今年這個單位共100名員工,男60人。另外一家生產(chǎn)相同產(chǎn)品的廠家,今年年產(chǎn)量是80臺。求計劃完成相對指標、執(zhí)行進度相對指標、結(jié)構(gòu)相對指標、比例相對指標、動態(tài)相對指標、比較相對指標、強度相對指標,則有:計劃完成相對指標=120/100=120%; 執(zhí)行進度相對指標=90/100=90%結(jié)構(gòu)相對指標=60/100=60%; 比例相對指標=60/(100-60)=150:100動態(tài)相對指標=120/90=133.3

42、%;比較相對指標=120/80=150%強度相對指標=100/100=1(臺/人)正負。4. 統(tǒng)計分析的常見指標4.2.4 平均指標平均指標的概念平均指標是以反映總體的一般水平的綜合指標,又稱平均數(shù),它是將一個總體內(nèi)各個單位在某個數(shù)量標志上的差異抽象化,以反映這個總體一般水平的綜合指標。比如2014年度北京市職工平均工資(又稱社會平均工資)為7.76萬元,月平均工資為6463元。4.2 統(tǒng)計分析的常見指標4.2.4 平均指標平均指標的特點:平均指標是個代表值,代表總體各單位標志值的一般水平;把總體各個單位某一標志數(shù)值的差異抵消掉。即總體內(nèi)各同質(zhì)單位存在數(shù)量差異,但在計算平均數(shù)時并不考慮這種差異

43、,即把這種差異平均掉了。平均指標的作用:反映總體各單位標志值分布的集中趨勢;用來比較同類現(xiàn)象在不同單位發(fā)展的一般水平及同一單位的同類指標在不同時期的發(fā)展狀況;4.2 統(tǒng)計分析的常見指標4.2.4 平均指標平均指標的分類平均指標分為數(shù)值平均指標和位置平均指標。數(shù)值平均指標按計算方法分為算術(shù)平均數(shù)、調(diào)和平均數(shù)和幾何平均數(shù)。位置平均平均指標有眾數(shù)和中位數(shù)。4.2 統(tǒng)計分析的常見指標4.2.4 平均指標數(shù)值平均指標算術(shù)平均數(shù):算術(shù)平均數(shù)是將總體各個單位的某一標志值相加除以總體單位數(shù)求的的標志值,計算公式為: 4.2 統(tǒng)計分析的常見指標4.2.4 平均指標數(shù)值平均指標加權(quán)算術(shù)平均數(shù):當變量值已經(jīng)分組,且

44、各個標志值出現(xiàn)的次數(shù)不相同時,就可以采用加權(quán)算術(shù)平均數(shù)的形式計算平均指標,公式:4.2 統(tǒng)計分析的常見指標4.2.4 平均指標數(shù)值平均指標調(diào)和平均數(shù):在不掌握各組單位數(shù)以及總體單位數(shù)的情況下,只掌握各組的標志值和各組的標志總量及總體總量的情況下,用此方法。簡單調(diào)和平均數(shù):加權(quán)調(diào)和平均數(shù):4.2 統(tǒng)計分析的常見指標4.2.4 平均指標數(shù)值平均指標幾何平均數(shù):幾何平均數(shù)是用n個變量相乘開n次方的算術(shù)根來計算的平均數(shù),在統(tǒng)計中,幾何平均數(shù)常用于計算平均速度和平均比率。簡單幾何平均數(shù):加權(quán)幾何平均數(shù):4.2 統(tǒng)計分析的常見指標4.2.4 平均指標位置平均指標中位數(shù):是根據(jù)變量值的位置來確定的平均數(shù)。將

45、變量值按大小順序排序,處于中間位置的變量值(或數(shù)據(jù)),公式為:4.2 統(tǒng)計分析的常見指標4.2.4 平均指標位置平均指標中位數(shù):是根據(jù)變量值的位置來確定的平均數(shù)。將變量值按大小順序排序,處于中間位置的變量值(或數(shù)據(jù)),公式為:4.2 統(tǒng)計分析的常見指標4.2.4 平均指標位置平均指標眾數(shù)是指總體中出現(xiàn)次數(shù)最多的標志值,用表示。眾數(shù)也是一種位置平均數(shù),近似計算公式為:4.2 統(tǒng)計分析的常見指標4.2.5 變異指標變異指標又稱標志變動指標,它反映了總體各單位標志值的差異程度,它是說明總體標志值的變異、離散程度。例如用于股市投資分析的MACD指標(指數(shù)離差指標)。變異指標的作用反映變量分布的離散趨勢

46、;反映平均數(shù)的代表性,總體單位變量值的離中趨勢;量度事物發(fā)展均衡性。4.2 統(tǒng)計分析的常見指標4.2.5 變異指標變異指標又稱標志變動指標,它反映了總體各單位標志值的差異程度,它是說明總體標志值的變異、離散程度。例如用于股市投資分析的MACD指標(指數(shù)離差指標)。變異指標的作用反映變量分布的離散趨勢;反映平均數(shù)的代表性,總體單位變量值的離中趨勢;量度事物發(fā)展均衡性。4.2 統(tǒng)計分析的常見指標4.2.5 變異指標變異指標的種類與計算 全距(極差):總體各單位標志值中最大值和最小值的差距。它最簡明地說明標志值的變動范圍,計算公式為:平均差 :總體各單位標志值與平均數(shù)離差絕對值的平均數(shù)。它表示總體各

47、標志值與平均數(shù)的平均差異程度,用A.D表示平均差。4.2 統(tǒng)計分析的常見指標4.2.5 變異指標全距(極差):總體各單位標志值中最大值和最小值的差距。它最簡明地說明標志值的變動范圍,計算公式為:平均差 :總體各單位標志值與平均數(shù)離差絕對值的平均數(shù)。它表示總體各標志值與平均數(shù)的平均差異程度,用A.D表示平均差。4.2 統(tǒng)計分析的常見指標4.2.5 變異指標方差和標準差:方差和標準差是測度標志變異最重要最常用的指標,它以變量值與平均數(shù)的離差平方為基礎(chǔ),討論平均數(shù)的代表性,是變量值與平均數(shù)的離差平方的平均數(shù),標準差用表示。4.3 回歸與預(yù)測4.3.1回歸回歸的概念一般說來,回歸就是在分析自變量和因變

48、量之間相關(guān)關(guān)系的基礎(chǔ)上,建立變量之間的方程?;貧w的本質(zhì)是一種數(shù)學(xué)模型,通過建立變量間適當?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律,并可用于預(yù)報、控制等問題 4.3 回歸與預(yù)測4.3.1回歸公式:y = a + b x公式:y =sin( x) 4.3回歸與預(yù)測4.3.2預(yù)測統(tǒng)計預(yù)測屬于預(yù)測方法研究范疇,即如何利用科學(xué)的統(tǒng)計方法對事物的未來發(fā)展進行定量推測,并計算概率置信區(qū)間。是一種具有通用性的方法。最簡單的預(yù)測方法就是回歸預(yù)測,即將回歸方程作為模型,根據(jù)自變量在預(yù)測期的數(shù)量變化來預(yù)測因變量值。4.3回歸與預(yù)測4.3.2預(yù)測預(yù)測步驟:確定變量:明確預(yù)測的具體目標,也就確定了因變量。建立模型:依據(jù)自變量和因

49、變量的歷史統(tǒng)計資料進行計算,在此基礎(chǔ)上建立回歸分析方程,即回歸分析預(yù)測模型。進行分析:回歸分析是對具有因果關(guān)系的影響因素(自變量)和預(yù)測對象(因變量)所進行的數(shù)理統(tǒng)計分析處理。只有當變量與因變量確實存在某種關(guān)系時,建立的回歸方程才有意義。謝 謝 !第5章 數(shù)據(jù)挖掘本章內(nèi)容5.1 大數(shù)據(jù)挖掘概念5.2 大數(shù)據(jù)挖掘概念5.3 數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘的常用方法實驗5 數(shù)據(jù)挖掘5.1.1 數(shù)據(jù)挖掘的起源 從我們的觀點來看,大部分數(shù)據(jù)挖掘問題和相應(yīng)的解決方法都起源于傳統(tǒng)的數(shù)據(jù)分析。數(shù)據(jù)挖掘起源于多種學(xué)科,其中最重要的兩門是統(tǒng)計學(xué)和機器學(xué)習(xí),統(tǒng)計學(xué)起源于數(shù)學(xué),因此,它強調(diào)數(shù)學(xué)上的精確。在實踐測試之前,在理論

50、基礎(chǔ)上建立一些東西的要求是明智的,相比之下,機器學(xué)習(xí)更多地起源于計算機實踐。這就導(dǎo)致了實踐的傾向,自覺地對一些東西進行檢驗來查看它表現(xiàn)的好壞,而不是去等待有效性的正式證據(jù)。5.1 大數(shù)據(jù)挖掘概念5.1.2 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘(Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目

51、標。5.2.1 數(shù)據(jù)總結(jié) 數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進行濃縮,給出它的總體綜合描述。通過對數(shù)據(jù)的總結(jié),數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)庫中的有關(guān)數(shù)據(jù)從較低的個體層次抽象總結(jié)到較高的總體層次上,從而實現(xiàn)對原始基本數(shù)據(jù)的總體把握。 最簡單的數(shù)據(jù)總結(jié)方法是利用統(tǒng)計學(xué)中的傳統(tǒng)方法,計算出數(shù)據(jù)庫中各個數(shù)據(jù)項的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計量?;蛘咄ㄟ^利用統(tǒng)計圖形工具,對數(shù)據(jù)制作直方圖、餅狀圖等。 利用OLAP(On Line Processing)技術(shù)(即聯(lián)機分析處理技術(shù))實現(xiàn)數(shù)據(jù)的多維查詢也是一種廣泛使用的數(shù)據(jù)總結(jié)的方法。 5.2 數(shù)據(jù)挖掘任務(wù)5.2.2 分類 分類的主要功能是使用一個分類函數(shù)或分類模型(

52、也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。即:分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些組。這樣我們就可以利用該模型來分析已有數(shù)據(jù),并預(yù)測新數(shù)據(jù)將屬于哪一個組。 分類應(yīng)用的實例很多。例如,我們可以將銀行網(wǎng)點分為好、一般和較差三種類型,并依此分析這三種類型銀行網(wǎng)點的各種屬性,特別是位置、盈利情況等屬性,并決定它們分類的關(guān)鍵屬性及相互間關(guān)系。此后就可以根據(jù)這些關(guān)鍵屬性對每一個預(yù)期的銀行網(wǎng)點進行分析,以便決定預(yù)期銀行網(wǎng)點屬于哪一種類型。5.2.3 關(guān)系分析 關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),描述一組數(shù)據(jù)項目的密切度或關(guān)系。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)

53、的關(guān)聯(lián)是否存在精確的關(guān)聯(lián)函數(shù),即便知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有置信度,置信度級別度量了關(guān)聯(lián)規(guī)則的強度。5.2.4 聚類 當要分析的數(shù)據(jù)缺乏描述信息,或者是無法組織成任何分類模式時,可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。 統(tǒng)計方法中的聚類分析是實現(xiàn)聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象

54、之間的區(qū)別。5.3.1 業(yè)務(wù)理解(1)確定業(yè)務(wù)目標(2)形式評估(3)確定數(shù)據(jù)挖掘目標(4)制訂項目實施計劃5.3 數(shù)據(jù)挖掘流程5.3.2 數(shù)據(jù)理解(1)數(shù)據(jù)的初步收集(2)數(shù)據(jù)描述(3)數(shù)據(jù)的探索性分析(4)數(shù)據(jù)質(zhì)量檢驗5.3.3 數(shù)據(jù)準備(1)選擇數(shù)據(jù)(2)數(shù)據(jù)清洗(3)數(shù)據(jù)構(gòu)建(4)數(shù)據(jù)融合(5)數(shù)據(jù)格式化5.3.4 建立模型(1)選擇建模技術(shù)(2)生成模型(3)建立模型(4)評估模型5.3.5 結(jié)果評價 在大多數(shù)情況下,數(shù)據(jù)挖掘模型應(yīng)該有助于決策。因此,要對這種模型進行說明以使模型有用,因為人們不會在復(fù)雜的“黑箱模型”的基礎(chǔ)上作決策。注意,模型準確性的目標和模型說明的準確性的目標有點互

55、相矛盾。一般來說,簡單的模型容易說明,但是其準確性就差一些。5.4 數(shù)據(jù)挖掘的常用方法 數(shù)據(jù)挖掘方法是由人工智能、機器學(xué)習(xí)的方法發(fā)展而來,結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)以及科學(xué)計算可視化技術(shù),以數(shù)據(jù)庫為研究對象,形成的數(shù)據(jù)挖掘的方法和技術(shù)。 數(shù)據(jù)挖掘常用的技術(shù)可以分為六大類:歸納學(xué)習(xí)方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計分析方法、模糊數(shù)學(xué)方法、可視化技術(shù)。5.4.1 決策樹 決策樹起源于概念學(xué)習(xí)系統(tǒng)CLS (Concept Learning System)。決策樹方法就是利用信息論的原理建立決策樹。該類方法的實用效果好,影響較大。決策樹可高度自動化地建立起易于為用戶所理解的模型,而且,系統(tǒng)具有較好

56、地處理缺省數(shù)據(jù)及帶有噪聲數(shù)據(jù)等能力。1、決策樹表示法 決策樹是一樹狀結(jié)構(gòu),它從根節(jié)點開始,對數(shù)據(jù)樣本(由實例集組成,實例有若干屬性)進行測試,根據(jù)不同的結(jié)果將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集,每個數(shù)據(jù)樣本子集構(gòu)成一子節(jié)點。生成的決策樹每個葉節(jié)點對應(yīng)一個分類。構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來預(yù)測將來未知類別的記錄的類別。這種具有預(yù)測功能的系統(tǒng)叫決策樹分類器。2、決策樹構(gòu)造思想 構(gòu)造一個決策樹分類器通常分為兩步:樹的生成和剪枝。決策樹的生成是一個從上至下,“分而治之”(Divide-And-Conquer)的過程,是一個遞歸的過程。設(shè)數(shù)據(jù)樣本集為S,算法框架如下: (1)如果數(shù)據(jù)樣

57、本集S中所有樣本都屬于同一類或者滿足其它終止準則,則S不再劃分,形成葉節(jié)點。 (2)否則,根據(jù)某種策略選擇一個屬性,按照屬性的各個取值,對S進行劃分,得到n個子樣本集,記為 。再對每個 迭代執(zhí)行步驟1經(jīng)過n次遞歸,最后生成決策樹。從根到葉結(jié)點的一條路徑就對應(yīng)著一條規(guī)則,整棵決策樹就對應(yīng)著一組析取表達式規(guī)則。樹構(gòu)成步驟中,主要就是找出節(jié)點的屬性和如何對屬性值進行劃分。3、決策樹方法特點 決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價值的,潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。5.4.2 遺傳算法 遺傳算法是由美國Michigan

58、大學(xué)的Holland教授于1969年提出,后經(jīng)DeJong、Goldberg等人歸納總結(jié)所形成的一類模擬進化算法。它來源于達爾文的進化論、魏茨曼的物種選擇學(xué)說和孟德爾的群體遺傳學(xué)說。它適合于無表達或有表達的任何類函數(shù),具有可實現(xiàn)的并行計算行為;它能解決任何種類實際問題,具有廣泛的應(yīng)用價值。1、遺傳算法特點(1)遺傳算法從問題解的中集開始嫂索,而不是從單個解開始。(2)遺傳算法求解時使用特定問題的信息極少,容易形成通用算法程序。(3)遺傳算法有極強的容錯能力(4)遺傳算法中的選擇、交叉和變異都是這說明遺傳算法是采用隨機方法進行最優(yōu)解搜索,選擇體現(xiàn)了向最優(yōu)解迫近,交叉體現(xiàn)了最優(yōu)解的產(chǎn)生,變異體現(xiàn)了

59、全局最優(yōu)解的覆蓋。(5)遺傳算法具有隱含的并行性。2、遺傳算法流程(1)選擇一個初始的人口(2)確定每個個體的適應(yīng)度(3)執(zhí)行選擇(4)重復(fù)(5)執(zhí)行交叉(6)執(zhí)行突變(7)確定每個個體的適應(yīng)度(8)執(zhí)行選擇直到停止準則應(yīng)用遺傳算法處理流程3、遺傳算法優(yōu)缺點 遺傳是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其他模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在不增加錯誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和BP算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)

60、提取規(guī)則等。但遺傳算法的算法比較復(fù)雜,收斂于局部極小的較早收斂問題尚未解決。5.4.3 神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)是以重復(fù)學(xué)習(xí)的方法,將一串例子交與學(xué)習(xí),使其歸納出足以區(qū)分的樣式。如果面對新的例證,神經(jīng)網(wǎng)絡(luò)即可根據(jù)其過去學(xué)習(xí)的成果歸納后,推導(dǎo)出新的結(jié)果,這屬于機器學(xué)習(xí)的一種。數(shù)據(jù)挖掘的相關(guān)問題也可采類神經(jīng)學(xué)習(xí)的方式,其學(xué)習(xí)效果十分正確并可做預(yù)測功能。1、神經(jīng)網(wǎng)路概述 在許多數(shù)據(jù)挖掘和決策支持應(yīng)用中,由于有公認的軌跡記錄,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)成為一種普遍采用的方法。神經(jīng)網(wǎng)絡(luò)是一種可以容易的應(yīng)用于預(yù)測、分類和聚類的強有力工具。最有力的神經(jīng)網(wǎng)絡(luò)是生物所具有的神經(jīng)網(wǎng)絡(luò),與此相對應(yīng)的是,計算機通常善于反復(fù)的執(zhí)行明確

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論