數(shù)據(jù)可視化與分析基礎(chǔ)_第1頁
數(shù)據(jù)可視化與分析基礎(chǔ)_第2頁
數(shù)據(jù)可視化與分析基礎(chǔ)_第3頁
數(shù)據(jù)可視化與分析基礎(chǔ)_第4頁
數(shù)據(jù)可視化與分析基礎(chǔ)_第5頁
已閱讀5頁,還剩198頁未讀, 繼續(xù)免費閱讀

付費閱讀全文

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

高等學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用規(guī)劃教材

數(shù)據(jù)可視化與分析基礎(chǔ)

張丹玨?主編

鄭俊副主編

顧順德主審

文前-2校.indd12019-8-2310:30:55

內(nèi)?容?簡?介

本書以循序漸進的方式,由淺入深地講述了數(shù)據(jù)分析的整個過程。全書共分6章,主要內(nèi)容包括:

數(shù)據(jù)分析概述、數(shù)據(jù)可視化初步、數(shù)據(jù)可視化進階、數(shù)據(jù)挖掘基礎(chǔ)、數(shù)據(jù)分析報告和綜合案例。每章內(nèi)

附有實用性范例供讀者練習(xí),鞏固所學(xué)知識。

本書在講解數(shù)據(jù)可視化的基礎(chǔ)性原理的同時,融入真實案例分析,具有較強的實用性,幫助讀者舉

一反三,真正學(xué)會大數(shù)據(jù)可視化和數(shù)據(jù)挖掘的工具軟件,能運用大數(shù)據(jù)思維解決學(xué)習(xí)和工作中的實際問題。

本書適合作為高等學(xué)校非計算機相關(guān)專業(yè)大數(shù)據(jù)可視化、數(shù)據(jù)媒體設(shè)計等課程的教材,也可作為對

數(shù)據(jù)分析感興趣讀者的參考用書。

圖書在版編目(CIP)數(shù)據(jù)

數(shù)據(jù)可視化與分析基礎(chǔ)/張丹玨主編.—北京:中國

鐵道出版社有限公司,2019.8

高等學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用規(guī)劃教材

ISBN978-7-113-25989-1

Ⅰ.①數(shù)…Ⅱ.①張…Ⅲ.①數(shù)據(jù)處理-高等學(xué)校-

教材Ⅳ.①TP274

中國版本圖書館CIP數(shù)據(jù)核字(2019)第174453號

書名:數(shù)據(jù)可視化與分析基礎(chǔ)

作者:張丹玨

策劃:曹莉群?編輯部電話:(010)63589185轉(zhuǎn)2007

責(zé)任編輯:陸慧萍?盧?笛

封面設(shè)計:劉?穎

責(zé)任校對:張玉華

責(zé)任印制:郭向偉

出版發(fā)行:中國鐵道出版社有限公司(100054,北京市西城區(qū)右安門西街8號)

網(wǎng)址:/51eds/

印刷:北京柏力行彩印有限公司

版次:2019年8月第1版2019年8月第1次印刷

開本:787mm×1092mm1/16印張:12.5字?jǐn)?shù):294千

書號:ISBN978-7-113-25989-1

定價:39.00元

版權(quán)所有侵權(quán)必究

凡購買鐵道版圖書,如有印制質(zhì)量問題,請與本社教材圖書營銷部聯(lián)系調(diào)換。電話:(010)63550836

打擊盜版舉報電話:(010)51873659

文前-2校.indd22019-8-2318:11:41

PREFACE前言

大數(shù)據(jù)技術(shù)經(jīng)歷了多年的發(fā)展,已經(jīng)在金融、電信、教育、醫(yī)藥等領(lǐng)域得到了較多也較

為成功的應(yīng)用,這使人們看到了該技術(shù)所帶來的挑戰(zhàn)與改革,而IT技術(shù)的高速發(fā)展使得該技

術(shù)趨于大眾化,使得越來越多的人能夠參與其中,分享該技術(shù)帶來的樂趣。

本書系統(tǒng)地介紹了數(shù)據(jù)分析、數(shù)據(jù)可視化與數(shù)據(jù)挖掘的概念和方法,在內(nèi)容編排上側(cè)重

于應(yīng)用,用案例將知識點進行串聯(lián),以期達(dá)到提高讀者的學(xué)習(xí)興趣、增強實踐動手能力的目的。

本書對于初次接觸數(shù)據(jù)分析的讀者會有很大幫助,書中對數(shù)據(jù)分析的每一步操作都有詳

盡的說明,且選用的軟件都是相關(guān)工具軟件,無須編程基礎(chǔ)即可完成整個分析過程,使讀者

能夠脫離枯燥的代碼環(huán)境,專注于數(shù)據(jù)本身,為數(shù)據(jù)分析帶來全新的思路和視角。書中涉及

的數(shù)據(jù)均來自于網(wǎng)絡(luò),僅供學(xué)習(xí)研究使用。

本書由張丹玨任主編,鄭俊任副主編,施慶、趙任穎、程五生、盛家駿、翁少逸和蔣雨

蔚參與編寫。全書由顧順德主審。具體分工如下:第1章由施慶編寫,第2章的2.1~2.5由

程五生編寫,第2章的2.6和第3章由鄭俊編寫,第4~6章和附錄A由張丹玨編寫,附錄B

由盛家駿、翁少逸和蔣雨蔚編寫,附錄C由趙任穎編寫。

在本書的編寫過程中,得到了許多老師的大力支持和熱情幫助,中國鐵道出版社有限公

司對本書的出版給予了大力支持,在此表示衷心的感謝!

由于時間倉促,編者水平有限,書中難免存在疏漏或不足之處,懇請讀者批評指正,以

便及時修改和完善。

編者

2019年6月

文前-2校.indd32019-8-2310:30:55

CONTENTS目錄

第1章?數(shù)據(jù)分析概述...............12.4.1認(rèn)識主頁.................................14

.............................

1.1大數(shù)據(jù)簡介......................................................12.4.2連接到文件16

.........................

1.2數(shù)據(jù)可視化......................................................22.4.3連接到數(shù)據(jù)庫17

.........

1.2.1數(shù)據(jù)可視化概述......................22.4.4創(chuàng)建項目和添加數(shù)據(jù)集18

.....................

1.2.2在線可視化工具......................22.4.5項目的導(dǎo)入導(dǎo)出23

.........................

1.2.3專業(yè)可視化軟件......................32.4.6工作界面簡介26

........

1.3數(shù)據(jù)挖掘...........................................................42.5OracleDVD支持的數(shù)據(jù)類型27

.............

1.3.1數(shù)據(jù)挖掘概述..........................42.5.1定性數(shù)據(jù)與定量數(shù)據(jù)27

.............................

1.3.2常用數(shù)據(jù)挖掘工具..................42.5.2度量和屬性32

.............................

1.4數(shù)據(jù)分析...........................................................52.5.3連續(xù)和離散33

.........................

1.4.1數(shù)據(jù)分析概述..........................52.5.4數(shù)據(jù)轉(zhuǎn)換選項33

.............................................

1.4.2數(shù)據(jù)分析的目的與分類..........52.6創(chuàng)作一個畫布35

.....................

1.4.3數(shù)據(jù)分析的作用......................52.6.1畫布新建與設(shè)置36

.....

1.5數(shù)據(jù)分析的步驟...........................................62.6.2將數(shù)據(jù)添加到可視化畫布36

.............

1.6數(shù)據(jù)分析方法論...........................................72.6.3添加多個可視化圖表38

.....................

1.7常見數(shù)據(jù)分析法則.....................................82.6.4更改可視化類型39

2.6.5調(diào)整可視化屬性.....................41

第2章?數(shù)據(jù)可視化初步............10

2.6.6顏色設(shè)置.................................42

2.1OracleDV產(chǎn)品簡介............................10

2.6.7大?。▽挾龋┰O(shè)置.................45

2.2軟件安裝........................................................11

2.6.8排序和篩選.............................45

2.2.1硬件要求.................................11

2.6.9數(shù)據(jù)的鉆探.............................48

2.2.2安裝OracleDVD....................12

2.6.10用作篩選器...........................48

2.2.3安裝DVML............................13

2.6.11導(dǎo)出畫布...............................49

2.3其他數(shù)據(jù)可視化工具.............................13

............

2.3.1Excel........................................13第3章?數(shù)據(jù)可視化進階51

........................................

2.3.2Tableau....................................133.1運算符和表達(dá)式51

.............................

2.3.3PowerBI.................................133.1.1算術(shù)表達(dá)式52

.............................

2.3.4ECharts....................................143.1.2關(guān)系表達(dá)式52

.............................

2.4OracleDVD功能介紹........................143.1.3邏輯表達(dá)式53

文前-2校.indd12019-8-2310:30:55

II數(shù)據(jù)可視化與分析基礎(chǔ)

3.2添加計算........................................................534.2.3數(shù)據(jù)流構(gòu)建...........................123

3.3主要功能函數(shù)簡介..................................564.2.4模型簡介...............................125

3.3.1COUNT()函數(shù)......................564.3數(shù)據(jù)整理.....................................................127

3.3.2TOPN()函數(shù)..........................584.3.1數(shù)據(jù)的屬性...........................128

3.3.3Case(if)函數(shù)............................594.3.2數(shù)據(jù)的角色...........................128

3.4創(chuàng)建圖表........................................................614.3.3數(shù)據(jù)的導(dǎo)入...........................128

3.4.1條形圖....................................614.3.4數(shù)據(jù)的集成...........................133

3.4.2水平條形圖.............................714.3.5數(shù)據(jù)的導(dǎo)出...........................135

3.4.3線形圖....................................724.4數(shù)據(jù)建?!獩Q策樹..........................136

3.4.4面積圖....................................774.4.1決策樹案例...........................136

3.4.5餅圖........................................804.4.2用戶畫像案例.......................140

3.4.6旭日圖....................................844.5數(shù)據(jù)建?!P(guān)聯(lián)分析....................142

3.4.7雷達(dá)線....................................864.5.1關(guān)聯(lián)參數(shù)...............................142

3.4.8網(wǎng)格熱圖.................................884.5.2關(guān)聯(lián)分析案例.......................144

3.4.9樹狀圖....................................91

第5章?數(shù)據(jù)分析報告............147

3.4.10標(biāo)記云...................................92

5.1數(shù)據(jù)分析報告概述...............................147

3.4.11散點圖...................................95

5.2數(shù)據(jù)分析報告的寫作原則...............147

3.4.12組合圖表.............................102

5.3數(shù)據(jù)分析報告的結(jié)構(gòu)..........................148

3.4.13瀑布圖.................................105

5.4數(shù)據(jù)分析報告排版..........................149

3.4.14箱線圖.................................108

....

3.4.15地圖....................................110第6章?綜合案例(成績分析)156

3.5創(chuàng)建故事.....................................................1136.1數(shù)據(jù)整理.....................................................156

6.2人數(shù)分析.....................................................163

第4章?數(shù)據(jù)挖掘基礎(chǔ)............116

6.3生源地分析................................................166

4.1數(shù)據(jù)挖掘概述..........................................116

6.4成績分析.....................................................166

4.1.1數(shù)據(jù)挖掘的分類...................116

6.5敘述................................................................171

4.1.2數(shù)據(jù)挖掘的步驟...................117

......

4.1.3數(shù)據(jù)挖掘的應(yīng)用...................118附錄A?數(shù)據(jù)分析報告評分表172

4.1.4數(shù)據(jù)挖掘的案例...................119

附錄B?數(shù)據(jù)分析報告示例........173

4.2IBMSPSSModeler18簡介.......120

.........

4.2.1軟件下載與安裝...................121附錄C?Access基本操作188

.......................

4.2.2軟件界面介紹121參考文獻......................194

文前-2校.indd22019-8-2310:30:55

第1章

數(shù)據(jù)分析概述

在當(dāng)今飛速發(fā)展的數(shù)字化社會,數(shù)據(jù)量呈現(xiàn)井噴式增長,如何從這些數(shù)據(jù)中提取有效信息

顯得尤為重要和迫切。一個專業(yè)的數(shù)據(jù)分析師,除了需要掌握各項操作技能,了解各種數(shù)據(jù)分

析工具,更重要的是具備數(shù)據(jù)分析的思維邏輯。

本章將著重介紹數(shù)據(jù)分析領(lǐng)域的相關(guān)概念、工具及方法,幫助讀者了解大數(shù)據(jù)、數(shù)據(jù)可視化、

數(shù)據(jù)挖掘、數(shù)據(jù)分析的步驟、方法和分析法則,為后續(xù)的學(xué)習(xí)打下扎實的理論基礎(chǔ)。

1.1大數(shù)據(jù)簡介

大數(shù)據(jù)(BigData)又稱巨量資料,是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)

力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資源。

大數(shù)據(jù)具有以下5V特征:

(1)Volume(大量):指的是巨大的數(shù)據(jù)量,包括采集、存儲及計算過程中的數(shù)據(jù)。大

數(shù)據(jù)的起始計算單位一般是PB、EB或ZB。

其中,數(shù)據(jù)量的單位換算如下:

1GB(GigaByte、吉字節(jié))=1024MB;

1TB(TrillionByte、太字節(jié))=1024GB;

1PB(PetaByte、拍字節(jié))=1024TB;

1EB(ExaByte、艾字節(jié))=1024PB;

1ZB(ZettaByte、澤字節(jié))=1024EB。

(2)Velocity(高速):指的是數(shù)據(jù)增長速度快,處理速度也快,時效性要求高。

(3)Variety(多樣):指的是種類和數(shù)據(jù)來源多樣化,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化

數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,多類型的數(shù)據(jù)對數(shù)據(jù)的處

理能力提出了更高的要求。

(4)Value(價值):指的是數(shù)據(jù)價值密度相對較低。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,

正文-2校.indd12019-8-2313:53:58

2數(shù)據(jù)可視化與分析基礎(chǔ)

信息感知無處不在,而價值密度的高低與數(shù)據(jù)總量的大小成反比,因此,如何通過強大的機器

算法迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)背景下亟待解決的難題。

(5)Veracity(真實性):指的是數(shù)據(jù)的準(zhǔn)確性和可信賴度,即數(shù)據(jù)的質(zhì)量。

1.2數(shù)據(jù)可視化

1.2.1數(shù)據(jù)可視化概述

數(shù)據(jù)可視化旨在借助圖形化手段,清晰有效地傳達(dá)數(shù)據(jù)中蘊含的信息,其本質(zhì)是將復(fù)雜的

數(shù)據(jù)用視覺展示的方式增強用戶對數(shù)據(jù)的理解,以準(zhǔn)確、形象、快速的傳達(dá)方式凸顯數(shù)據(jù)的含義。

數(shù)據(jù)可視化綜合應(yīng)用計算機科學(xué)、圖形學(xué)、可視化設(shè)計、心理學(xué)等多個領(lǐng)域的知識,運用符合

人類視覺系統(tǒng)的方式為用戶提供簡潔、直觀、形象、有趣、易于理解的數(shù)據(jù)展示,從而幫助用

戶了解數(shù)據(jù),應(yīng)用數(shù)據(jù)。

值得一提的是:數(shù)據(jù)可視化是一個處于不斷演變中的概念,其邊界在不斷地擴大中,涵蓋

的范圍也變得越來越廣。

1.2.2在線可視化工具

常見的在線可視化工具有以下幾種:

1.ECharts

ECharts(網(wǎng)址/)是一個免費的、功能強大的、可視化的庫。它

可以流暢地運行在PC和移動設(shè)備上,兼容當(dāng)前絕大部分瀏覽器(如IE8/9/10/11、Chrome、

Firefox、Safari等),底層依賴輕量級的Canvas類庫ZRender,提供直觀、生動、可交互、可高

度個性化定制的數(shù)據(jù)可視化圖表。簡單地說,ECharts就是一個幫助數(shù)據(jù)可視化的庫。

2.GAPMINDER

GAPMINDER(網(wǎng)址/)是位于瑞典斯德哥爾摩的一個非營利機構(gòu),

他們收集了大量的國際統(tǒng)計數(shù)據(jù),用非常簡單形象而極富動感的方式進行展示,既可在線播放,

又可下載(每次聯(lián)網(wǎng)時會自動下載更新數(shù)據(jù)),免費使用。

3.D3

D3(網(wǎng)址/)的全稱是Data-DrivenDocuments,顧名思義是一個被數(shù)據(jù)驅(qū)動的

文檔,它是一個JavaScript函數(shù)庫,主要用于數(shù)據(jù)可視化的展現(xiàn)。

4.RAWGraphs

RAWGraphs(網(wǎng)址https://rawgraphs.io/)號稱“電子表格和矢量圖形之間的缺失鏈接”,它

建立在D3.js之上,界面設(shè)計直觀,開源免費,不需要任何注冊。它有21種圖表類型的庫供選擇,

所有的處理均在瀏覽器中完成。此外,RAWGraphs是高度可定制和可擴展的,甚至可以接受新

的自定義布局。

5.Datawrapper

Datawrapper(網(wǎng)址https://www.datawrapper.de/)是一個用于制作交互式圖表的在線數(shù)據(jù)可視

正文-2校.indd22019-8-2313:53:58

第1章數(shù)據(jù)分析概述3

化工具。通過從CSV文件上傳數(shù)據(jù)或直接將其粘貼到字段中,Datawrapper將生成相關(guān)的可視

化文件,非常容易使用和生產(chǎn)有效的圖形。

6.TableauOnline

TableauOnline(網(wǎng)址/zh-cn/products/online)是目前較為流行的可視

化工具,它支持各種圖表、圖形、地圖和其他圖形,是一個完全免費的工具,用戶用它制作的

圖表可以很容易地嵌入任何網(wǎng)頁中,無須離開瀏覽器,即可連接到數(shù)據(jù)源,也可以使用Web制

作功能新建工作簿和可視化。此外,Tableau還有可供下載的付費版本。

7.Plotly

Plotly(網(wǎng)址https://plot.ly/)是一個開源的Python庫,可以完成基于Web的數(shù)據(jù)分析和繪

圖。使用Plotly輸出的結(jié)果是一個使用Plotly.js繪制而成的交互網(wǎng)頁,同樣支持生成靜態(tài)圖表,

如pdf、png等。

8.VisualizeFree

VisualizeFree(網(wǎng)址/)是一個免費的可視化工具,其本質(zhì)上是

一個托管平臺,允許用戶使用公開的或者自行上傳的數(shù)據(jù)集,然后依據(jù)設(shè)置,構(gòu)建完成交互式

可視化的演示數(shù)據(jù)。

1.2.3專業(yè)可視化軟件

相對于在線可視化工具的單一功能,以下3種專業(yè)可視化軟件的功能則強大得多。

1.OracleDataVisualization

OracleDataVisualization是Oracle推出的一款數(shù)據(jù)可視化獨立產(chǎn)品,也是OracleBI產(chǎn)品

BIEE的一部分。OracleDataVisualization的產(chǎn)品組件,不僅僅支持本地部署,也可以在云端方

便地訪問,甚至在個人計算機的桌面,用戶也可以隨時隨地自如地分析任何來自個人或企業(yè)內(nèi)

部的數(shù)據(jù)。

OracleDataVisualization在方便用戶使用、加速交互性的同時,可保證數(shù)據(jù)的準(zhǔn)確性和一致

性,并具有以下亮點。

可視:讓豐富的可視化控件顯示數(shù)據(jù),并且方便地分享給其他人。

簡單:不論是加載數(shù)據(jù),或者混搭不同來源的數(shù)據(jù),還是以拖動的方式進行交互性探索,

都以用戶期望的方式進行。

快速:只需要通過點擊,就可以快速地檢索數(shù)據(jù),找到更多的答案和洞察業(yè)務(wù)。

智能:對數(shù)據(jù)進行解讀,推薦最佳的表現(xiàn)形式,并可以根據(jù)上下文自動進行聯(lián)動。

OracleDataVisualization可以有多種部署選擇,包括云端的DataVisualizationCloudService

(DVCS)、本地部署的DataVisualization(DV)以及桌面版DataVisualizationDesktop(DVD)。

用戶可以根據(jù)自己的實際需要,選擇任何一種工作方式,利用相同的技術(shù)進行自助式的數(shù)據(jù)探

索,并且可以在不同的工作方式中,非常容易地進行遷移和共享。

2.PowerBI

PowerBI是微軟旗下的一款一體化的BI和分析平臺,提供“即服務(wù)”或者桌面客戶端,但

是評分最高的還屬其可視化功能??梢暬軌蛑苯訌膱蟾嬷袆?chuàng)建,可以與整個組織的用戶共享。

正文-2校.indd32019-8-2313:53:58

4數(shù)據(jù)可視化與分析基礎(chǔ)

除了大量的內(nèi)置可視化樣式外,也可以在AppSource社區(qū)不斷創(chuàng)建新的可視化樣式,或者如果

用戶想自己編碼,那么可以使用開發(fā)人員工具(DeveloperTools)從頭開始創(chuàng)建并與其他用戶共

享。它還包括一個自然語言界面,允許通過簡單的搜索詞建立不同復(fù)雜度的可視化。

3.Tableau

Tableau是能夠幫助用戶查看并理解數(shù)據(jù)的商業(yè)智能軟件,具有快速分析、簡單易用、不

限數(shù)據(jù)源、智能儀表板、自動更新、瞬時共享等特點。收費版功能較多,有TableauDesktop、

TableauPrep、TableauOnline、TableauServer等多個版本。

1.3數(shù)據(jù)挖掘

1.3.1數(shù)據(jù)挖掘概述

在大數(shù)據(jù)時代,如果人們想要探究數(shù)據(jù)深層次的內(nèi)涵,離不開數(shù)據(jù)挖掘的操作。所謂數(shù)據(jù)

挖掘(DataMining),又稱資料探勘、數(shù)據(jù)采礦,一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏

于其中的信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、

機器學(xué)習(xí)、專家系統(tǒng)和模式識別等方法實現(xiàn)上述目標(biāo)。

數(shù)據(jù)挖掘常見的分析方法有:分類、估計、預(yù)測、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類復(fù)雜數(shù)據(jù)

類型挖掘等。

1.3.2常用數(shù)據(jù)挖掘工具

1.IBMSPSSModeler

IBMSPSSModeler是IBM開發(fā)的一款面向商業(yè)用戶的高品質(zhì)數(shù)據(jù)挖掘工具,該軟件擁有可

視化用戶界面,簡單易用,且包含多種挖掘算法,可快速建立數(shù)據(jù)模型,挖掘結(jié)果直觀易懂,

可應(yīng)用于商業(yè)活動,從而改進決策過程,故在數(shù)據(jù)挖掘領(lǐng)域具有較高的口碑。

2.R

R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)

組運算工具;完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而強大的編程語言;可操

作數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán),用戶可自定義功能。

3.OracleDataMining

OracleDataMining是OracleAdvancedAnalytics數(shù)據(jù)庫的一個組件,它提供了強大的數(shù)據(jù)

挖掘算法,可以讓數(shù)據(jù)分析師發(fā)現(xiàn)洞察、做出預(yù)測并利用其Oracle數(shù)據(jù)進行投資。OracleData

Mining中的算法以SQL函數(shù)形式實現(xiàn),可以挖掘數(shù)據(jù)表和視圖、星狀模式數(shù)據(jù),包括事務(wù)性數(shù)

據(jù)、聚合、非結(jié)構(gòu)化數(shù)據(jù)以及空間數(shù)據(jù)。

4.Weka

Weka是一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,

包括對數(shù)據(jù)進行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則,以及在新的交互式界面上的可視化。

Weka高級用戶可以通過Java編程和命令行來調(diào)用其分析組件。同時,Weka也為普通用戶

正文-2校.indd42019-8-2313:53:58

第1章數(shù)據(jù)分析概述5

提供圖形化界面,和R相比,Weka在統(tǒng)計分析方面較弱,但在機器學(xué)習(xí)方面要強得多。

5.RapidMiner

RapidMiner是一個用于機器學(xué)習(xí)和數(shù)據(jù)挖掘?qū)嶒灥沫h(huán)境,用于研究和實際的數(shù)據(jù)挖掘任務(wù),

是世界領(lǐng)先的數(shù)據(jù)挖掘開源系統(tǒng)。該工具用Java編程語言編寫,通過基于模板的框架提供高級

分析。

6.KNIME

KNIME是一個基于Eclipse平臺開發(fā),模塊化的數(shù)據(jù)挖掘系統(tǒng),它能夠讓用戶可視化創(chuàng)建

數(shù)據(jù)流,選擇性地執(zhí)行部分或所有分解步驟,然后通過數(shù)據(jù)和模型上的交互式視圖研究執(zhí)行后

的結(jié)果。

1.4數(shù)據(jù)分析

1.4.1數(shù)據(jù)分析概述

所謂數(shù)據(jù)分析,是指用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯

總、理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。

1.4.2數(shù)據(jù)分析的目的與分類

數(shù)據(jù)分析的目的是把隱藏在大批看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,總結(jié)所

研究對象的內(nèi)在規(guī)律,幫助管理者進行有效的判斷和決策。

數(shù)據(jù)分析的分類可分為以下3種。

(1)描述性數(shù)據(jù)分析:側(cè)重于概括和表述數(shù)據(jù)的整體狀況。

(2)探索性數(shù)據(jù)分析:側(cè)重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征。

(3)驗證性數(shù)據(jù)分析:側(cè)重于驗證已有假設(shè)的真?zhèn)巍?/p>

1.4.3數(shù)據(jù)分析的作用

數(shù)據(jù)分析的作用主要體現(xiàn)在以下幾方面:

1.市場營銷方面

通過數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù),可以精準(zhǔn)尋找目標(biāo)用戶,發(fā)現(xiàn)用戶特征,構(gòu)建用戶畫像,

預(yù)測用戶行為,對用戶進行合理分群,用戶偏好預(yù)測、用戶個性化推薦等。

此外,通過對用戶行為分析研究,針對用戶的多維度屬性、標(biāo)簽和行為數(shù)據(jù),對用戶流失

預(yù)警、用戶生命周期分析、用戶影響力分析、用戶價值分析等相關(guān)用戶行為進行研究。

再者,通過監(jiān)測并分析行業(yè)競品情況,收集并解讀相關(guān)用戶和市場研究報告,為公司產(chǎn)品

規(guī)劃提供支持,對行業(yè)競爭品和行情進行監(jiān)控。

2.運營管理方面

在運營管理方面,通過對日常報告和數(shù)據(jù)的制作與維護,運營人員可以對公司業(yè)務(wù)的運營

情況展開深入分析,提出發(fā)展策略和建議。借助于監(jiān)控評估運營活動效能,運營人員也可以評

正文-2校.indd52019-8-2313:53:58

6數(shù)據(jù)可視化與分析基礎(chǔ)

估運營活動效能,提出營銷活動優(yōu)化和成本控制解決方案,并主導(dǎo)或協(xié)助落實。在公司管理層面,

通過數(shù)據(jù)分析,可以針對運營團隊整體KPI考核及情況制定對應(yīng)績效考核方案并跟蹤績效考核

實施。

3.產(chǎn)品研發(fā)方面

數(shù)據(jù)分析可以幫助產(chǎn)品進行優(yōu)化升級,并對新產(chǎn)品的研發(fā)提供有效的數(shù)據(jù)支持。

4.大數(shù)據(jù)平臺支持方面

對于基金、證券、期貨、投資這些金融行業(yè),每天都會產(chǎn)生大量的數(shù)據(jù),這些海量的數(shù)據(jù)

更是離不開數(shù)據(jù)分析的輔助,對于深層次的數(shù)據(jù)挖掘具有強大的應(yīng)用前景。

5.其他方面

此外,數(shù)據(jù)分析在餐飲行業(yè)、旅游行業(yè)、快速消費品行業(yè)、教育行業(yè)、物流行業(yè)、互聯(lián)網(wǎng)

金融行業(yè)、建筑業(yè)等都具有舉足輕重的價值,在如今這個時代,誰先認(rèn)識到數(shù)據(jù)分析的巨大潛

力并付諸行動,誰就能搶占先機。

1.5數(shù)據(jù)分析的步驟

數(shù)據(jù)分析過程包括6個循序漸進的基本步驟,它們?nèi)币徊豢?,相輔相成,也是企業(yè)在數(shù)據(jù)

分析時必不可少的步驟。

1.明確分析目的和思路

明確分析目的和思路有助于幫助分析者提供清晰的指引方向,保證數(shù)據(jù)分析的有效進行。

2.?dāng)?shù)據(jù)收集

數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析目的收集相關(guān)數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供基礎(chǔ),一般

數(shù)據(jù)來源于以下4個渠道。

(1)權(quán)威機構(gòu):各國各級政府公開發(fā)布的數(shù)據(jù),如中國國家統(tǒng)計局等。

(2)互聯(lián)網(wǎng):網(wǎng)絡(luò)平臺上公開的數(shù)據(jù)信息,如微博、百度、大眾點評等。

(3)市場調(diào)查:自發(fā)進行的調(diào)研活動,向特定的群體收集數(shù)據(jù)。

(4)企業(yè)數(shù)據(jù)庫:企業(yè)掌握的生產(chǎn)、運營數(shù)據(jù),一般這類數(shù)據(jù)不會公開發(fā)布,或者,經(jīng)

過脫敏后公開使用。

3.?dāng)?shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是指對收集到的數(shù)據(jù)進行加工整理,形成適合數(shù)據(jù)分析的樣式,是數(shù)據(jù)分析前

必不可少的階段,其目的是從大量的、雜亂無章、難以理解的數(shù)據(jù)中,抽取并導(dǎo)出對解決問題

有價值、有意義的數(shù)據(jù),從而提高數(shù)據(jù)分析的效率。

數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等。

4.?dāng)?shù)據(jù)分析

數(shù)據(jù)分析是指用適當(dāng)?shù)姆治龇椒肮ぞ?,對處理過的數(shù)據(jù)進行分析,提取有價值的信息,

形成有效結(jié)論的過程。

數(shù)據(jù)分析分為以下3大類。

(1)描述性數(shù)據(jù)分析:側(cè)重于概括和表述數(shù)據(jù)的整體狀況,包括數(shù)量統(tǒng)計、數(shù)據(jù)缺失情況、

正文-2校.indd62019-8-2313:53:58

第1章數(shù)據(jù)分析概述7

樣本分布、平均值、分位數(shù)、方差、指標(biāo)在時間和空間上的變化趨勢等。

(2)探索性數(shù)據(jù)分析:側(cè)重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征。

(3)驗證性數(shù)據(jù)分析:側(cè)重于驗證已有假設(shè)的真?zhèn)巍?/p>

5.?dāng)?shù)據(jù)展現(xiàn)

數(shù)據(jù)展現(xiàn)在數(shù)據(jù)分析步驟中是一個重要的角色,只有將收集的數(shù)據(jù)通過處理和分析,形成

有用的信息,并且用圖形,如柱形圖、餅圖、折線圖等進行展現(xiàn),能讓人們一目了然地發(fā)現(xiàn)數(shù)

據(jù)的本質(zhì)以及作用,數(shù)據(jù)展現(xiàn)需要做到內(nèi)容清晰易理解,信息完整明確、簡潔美觀。

6.報告撰寫

報告撰寫是數(shù)據(jù)分析的最后一步,是整個數(shù)據(jù)分析過程的總結(jié),是給企業(yè)決策者的一種參

考,為決策者提供科學(xué)、嚴(yán)謹(jǐn)?shù)臎Q策依據(jù)。

一份優(yōu)秀的數(shù)據(jù)分析報告,需要有一個明確的主題、一個清晰的目錄,圖文并茂地闡述數(shù)據(jù),

條理清晰地呈現(xiàn)結(jié)論,使決策者能一目了然地看出報告的核心內(nèi)容,這樣既能給閱讀者視覺上

的沖擊,又能很明確地闡述數(shù)據(jù)分析的核心內(nèi)容。最后,需要加上結(jié)論以及建議,這樣不僅可

以給決策者指出問題,還可以提供方案和想法,以便決策者在決策時作為參考。

1.6數(shù)據(jù)分析方法論

數(shù)據(jù)分析方法論是從宏觀角度出發(fā),指導(dǎo)數(shù)據(jù)分析師進行一個完整的數(shù)據(jù)分析的過程,它

是一個指南針,為數(shù)據(jù)分析師指明數(shù)據(jù)分析的正確方向。

數(shù)據(jù)分析方法論是指數(shù)據(jù)分析的思路,是數(shù)據(jù)分析的前期規(guī)劃,指導(dǎo)著后期數(shù)據(jù)分析工作

的開展。數(shù)據(jù)分析方法論好比裝修設(shè)計圖,它為數(shù)據(jù)分析工作提供工作框架和指引,而數(shù)據(jù)分

析方法好比裝修的工具和技術(shù),它為數(shù)據(jù)分析提供技術(shù)的方法和保障。

1.PEST分析

PEST分析是分析企業(yè)外部宏觀環(huán)境的一種方法,雖然不同的企業(yè)和行業(yè)受宏觀環(huán)境的影

響會有一定的差異,但一般企業(yè)和行業(yè)進行宏觀環(huán)境分析時,必然會進行政治環(huán)境(Political)、

經(jīng)濟環(huán)境(Economic)、技術(shù)環(huán)境(Technological)、社會環(huán)境(Social)分析,這四個環(huán)境是

影響企業(yè)的外部環(huán)境因素。

2.5W2H

5W2H分析法又稱七何分析法,是以5個W開頭的英文單詞和2個H開頭的英文單詞進

行提問,從回答中發(fā)現(xiàn)問題的線索以及解決方法,它簡單、方便、易于理解與使用,廣泛用于

企業(yè)管理和技術(shù)活動,對于決策和執(zhí)行性的活動措施非常有幫助,并且有助于彌補問題的疏漏。

5W2H指:為什么(Why)、做什么(What)、什么人做(Who)、什么時候(When)、什

么地方(Where)、如何做(How)、什么價格(Howmuch)。

3.邏輯樹分析法

邏輯樹又稱問題樹、演繹樹或分解樹等,邏輯樹是將問題的所有子問題分層羅列,從最高

層開始,逐步向下擴展,并把一個已知問題當(dāng)成樹干,然后開始考慮這個問題和哪些問題有關(guān),

每想到一點,就給這個問題所在的樹干加一個“樹枝”,并標(biāo)明這個“樹枝”代表什么問題,

正文-2校.indd72019-8-2313:53:58

8數(shù)據(jù)可視化與分析基礎(chǔ)

一個大的“樹枝”上還可以有小的“樹枝”,依此類推,找出與問題相關(guān)聯(lián)的所有項目。

邏輯樹主要是幫助數(shù)據(jù)分析師理清自己的思路,避免進行重復(fù)和無關(guān)的思考。

4.4P營銷理論

4P營銷理論產(chǎn)生于20世紀(jì)60年代的美國,它是隨著營銷組合理論的提出而出現(xiàn)的,營銷

組合實際上有幾十個要素,這些要素可以概括為以下4類:產(chǎn)品(Product)、價格(Price)、

渠道(Place)、宣傳(Promotion)。

5.用戶行為理論

用戶行為是指用戶為獲取、使用物品或者服務(wù)所采取的各種活動,用戶對產(chǎn)品首先需要有

一個認(rèn)知、熟悉的過程,然后試用,再決定是否繼續(xù)消費使用,最后成為忠誠用戶。

1.7常見數(shù)據(jù)分析法則

1.四象限法則

四象限法則是數(shù)據(jù)分析中經(jīng)常被用到且非常重要的一個分析方法,在應(yīng)用上有著多種變化。

所謂四象限法則,是指通過對兩種維度的劃分,運用坐標(biāo)的方式表達(dá)出想要的價值,由價值直

接轉(zhuǎn)變?yōu)椴呗?,從而進行一些項目的推動。四象限法則是一種策略驅(qū)動的思維,廣泛應(yīng)用于戰(zhàn)

略分析、產(chǎn)品分析、市場分析、客戶管理、用戶管理、商品管理等,其優(yōu)點是直觀、清晰,可

以對數(shù)據(jù)進行人工劃分,劃分結(jié)果可以直接應(yīng)用于策略。通過運用四象限法則分析數(shù)據(jù),可以

快速地找到問題的共性原因,建立分組優(yōu)化策略。

2.同期群分析

所謂同期群分析,是指按時間維度對用戶建立分組,觀察分組用戶的行為特征表現(xiàn),其目

的在于透過現(xiàn)象找到結(jié)果。以時間維度建立同期群,除按時間維度考慮,也可以按來源渠道等

維度建立同期群。

3.假設(shè)分析

在沒有直觀數(shù)據(jù)或者線索能進行分析的情況下,可以采用假設(shè)分析的方法進行綜合考慮,

以假設(shè)先行的方法進行推斷,通過人工設(shè)置一個變量來進行反證。例如:新產(chǎn)品的預(yù)期銷量、

未來某段時間內(nèi)的景區(qū)熱門度之類的。假設(shè)分析是一種啟發(fā)思考驅(qū)動的思維,它更多是一種思

考方法,即假設(shè)、驗證并加以判斷。

4.指數(shù)法

指數(shù)法主要有線性加權(quán)、反比例、log三種方法,是一種目標(biāo)驅(qū)動的思維,是將無法利用的

數(shù)據(jù)加工成可利用的,從而進行分析。但是指數(shù)法沒有統(tǒng)一的標(biāo)準(zhǔn),很多指數(shù)更依賴經(jīng)驗來進

行加工。指數(shù)法的優(yōu)點是目標(biāo)驅(qū)動力強、直觀、簡潔、有效,對業(yè)務(wù)有一定的指導(dǎo)作用,一旦

設(shè)立指數(shù)不易頻繁變動。

5.帕累托法則

帕累托法則,又稱二八定律、關(guān)鍵少數(shù)法則、不平衡原則等,被廣泛應(yīng)用于社會學(xué)及企業(yè)

管理學(xué)等,它以19世紀(jì)末20世紀(jì)初意大利經(jīng)濟學(xué)家帕累托命名。因為他發(fā)現(xiàn),在任何一組東

西中,最重要的只占其中小部分,約20%,其余80%盡管是多數(shù),卻是次要的。

正文-2校.indd82019-8-2313:53:58

第1章數(shù)據(jù)分析概述9

帕累托法則是一種只抓重點的思維,應(yīng)用于絕大多數(shù)的領(lǐng)域,因此,這種分析思維幾乎沒

有什么局限性。但是在一些特定的情況下數(shù)據(jù)分析依舊不能放棄全局,否則就會使思路變得

狹隘。

6.對比分析法

對比分析法是一種挖掘數(shù)據(jù)規(guī)律的思維方式,一次合格的數(shù)據(jù)分析一般都會用到多次對比,

如競爭對手對比、時間同比環(huán)比、類別對比、轉(zhuǎn)化對比、特征和屬性對比、前后變化的對比等。

在基于相同數(shù)據(jù)標(biāo)準(zhǔn)下,對比分析由其他影響因素所導(dǎo)致的數(shù)據(jù)差異,其目的在于找出差

異后進一步挖掘差異背后的原因,從而找到優(yōu)化的方法。

其優(yōu)點也是顯而易見的:對比分析法可以發(fā)現(xiàn)很多數(shù)據(jù)間的規(guī)律,可以與任何技巧結(jié)合。

7.漏斗分析

所謂漏斗分析,是一套流程式數(shù)據(jù)分析,它能夠科學(xué)反映用戶行為狀態(tài),以及從起點到終

點各階段用戶轉(zhuǎn)化率情況的重要分析模型。漏斗分析模型已經(jīng)廣泛應(yīng)用于網(wǎng)站用戶行為分析和

App用戶行為分析的流量監(jiān)控、產(chǎn)品目標(biāo)轉(zhuǎn)化等日常數(shù)據(jù)運營與數(shù)據(jù)分析的工作中。

漏斗分析最常用的是轉(zhuǎn)化率和流失率兩個互補型指標(biāo)。比如有10人訪問某電商網(wǎng)站,有3

人點擊注冊,有1人注冊成功。這個過程共有三步:第一步到第二步的轉(zhuǎn)化率為30%,流失率

為70%;第二步到第三步轉(zhuǎn)化率為33%,流失率為67%;整個過程的轉(zhuǎn)化率為10%,流失率為

90%。該模型就是經(jīng)典的漏斗分析模型。

正文-2校.indd92019-8-2313:53:58

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論