![數(shù)據(jù)可視化與分析基礎(chǔ)_第1頁](http://file4.renrendoc.com/view11/M01/23/13/wKhkGWWgqiaADRnvAAEDqMY5F9Y648.jpg)
![數(shù)據(jù)可視化與分析基礎(chǔ)_第2頁](http://file4.renrendoc.com/view11/M01/23/13/wKhkGWWgqiaADRnvAAEDqMY5F9Y6482.jpg)
![數(shù)據(jù)可視化與分析基礎(chǔ)_第3頁](http://file4.renrendoc.com/view11/M01/23/13/wKhkGWWgqiaADRnvAAEDqMY5F9Y6483.jpg)
![數(shù)據(jù)可視化與分析基礎(chǔ)_第4頁](http://file4.renrendoc.com/view11/M01/23/13/wKhkGWWgqiaADRnvAAEDqMY5F9Y6484.jpg)
![數(shù)據(jù)可視化與分析基礎(chǔ)_第5頁](http://file4.renrendoc.com/view11/M01/23/13/wKhkGWWgqiaADRnvAAEDqMY5F9Y6485.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
高等學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用規(guī)劃教材
數(shù)據(jù)可視化與分析基礎(chǔ)
張丹玨?主編
鄭俊副主編
顧順德主審
文前-2校.indd12019-8-2310:30:55
內(nèi)?容?簡?介
本書以循序漸進的方式,由淺入深地講述了數(shù)據(jù)分析的整個過程。全書共分6章,主要內(nèi)容包括:
數(shù)據(jù)分析概述、數(shù)據(jù)可視化初步、數(shù)據(jù)可視化進階、數(shù)據(jù)挖掘基礎(chǔ)、數(shù)據(jù)分析報告和綜合案例。每章內(nèi)
附有實用性范例供讀者練習(xí),鞏固所學(xué)知識。
本書在講解數(shù)據(jù)可視化的基礎(chǔ)性原理的同時,融入真實案例分析,具有較強的實用性,幫助讀者舉
一反三,真正學(xué)會大數(shù)據(jù)可視化和數(shù)據(jù)挖掘的工具軟件,能運用大數(shù)據(jù)思維解決學(xué)習(xí)和工作中的實際問題。
本書適合作為高等學(xué)校非計算機相關(guān)專業(yè)大數(shù)據(jù)可視化、數(shù)據(jù)媒體設(shè)計等課程的教材,也可作為對
數(shù)據(jù)分析感興趣讀者的參考用書。
圖書在版編目(CIP)數(shù)據(jù)
數(shù)據(jù)可視化與分析基礎(chǔ)/張丹玨主編.—北京:中國
鐵道出版社有限公司,2019.8
高等學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用規(guī)劃教材
ISBN978-7-113-25989-1
Ⅰ.①數(shù)…Ⅱ.①張…Ⅲ.①數(shù)據(jù)處理-高等學(xué)校-
教材Ⅳ.①TP274
中國版本圖書館CIP數(shù)據(jù)核字(2019)第174453號
書名:數(shù)據(jù)可視化與分析基礎(chǔ)
作者:張丹玨
策劃:曹莉群?編輯部電話:(010)63589185轉(zhuǎn)2007
責(zé)任編輯:陸慧萍?盧?笛
封面設(shè)計:劉?穎
責(zé)任校對:張玉華
責(zé)任印制:郭向偉
出版發(fā)行:中國鐵道出版社有限公司(100054,北京市西城區(qū)右安門西街8號)
網(wǎng)址:/51eds/
印刷:北京柏力行彩印有限公司
版次:2019年8月第1版2019年8月第1次印刷
開本:787mm×1092mm1/16印張:12.5字?jǐn)?shù):294千
書號:ISBN978-7-113-25989-1
定價:39.00元
版權(quán)所有侵權(quán)必究
凡購買鐵道版圖書,如有印制質(zhì)量問題,請與本社教材圖書營銷部聯(lián)系調(diào)換。電話:(010)63550836
打擊盜版舉報電話:(010)51873659
文前-2校.indd22019-8-2318:11:41
PREFACE前言
大數(shù)據(jù)技術(shù)經(jīng)歷了多年的發(fā)展,已經(jīng)在金融、電信、教育、醫(yī)藥等領(lǐng)域得到了較多也較
為成功的應(yīng)用,這使人們看到了該技術(shù)所帶來的挑戰(zhàn)與改革,而IT技術(shù)的高速發(fā)展使得該技
術(shù)趨于大眾化,使得越來越多的人能夠參與其中,分享該技術(shù)帶來的樂趣。
本書系統(tǒng)地介紹了數(shù)據(jù)分析、數(shù)據(jù)可視化與數(shù)據(jù)挖掘的概念和方法,在內(nèi)容編排上側(cè)重
于應(yīng)用,用案例將知識點進行串聯(lián),以期達(dá)到提高讀者的學(xué)習(xí)興趣、增強實踐動手能力的目的。
本書對于初次接觸數(shù)據(jù)分析的讀者會有很大幫助,書中對數(shù)據(jù)分析的每一步操作都有詳
盡的說明,且選用的軟件都是相關(guān)工具軟件,無須編程基礎(chǔ)即可完成整個分析過程,使讀者
能夠脫離枯燥的代碼環(huán)境,專注于數(shù)據(jù)本身,為數(shù)據(jù)分析帶來全新的思路和視角。書中涉及
的數(shù)據(jù)均來自于網(wǎng)絡(luò),僅供學(xué)習(xí)研究使用。
本書由張丹玨任主編,鄭俊任副主編,施慶、趙任穎、程五生、盛家駿、翁少逸和蔣雨
蔚參與編寫。全書由顧順德主審。具體分工如下:第1章由施慶編寫,第2章的2.1~2.5由
程五生編寫,第2章的2.6和第3章由鄭俊編寫,第4~6章和附錄A由張丹玨編寫,附錄B
由盛家駿、翁少逸和蔣雨蔚編寫,附錄C由趙任穎編寫。
在本書的編寫過程中,得到了許多老師的大力支持和熱情幫助,中國鐵道出版社有限公
司對本書的出版給予了大力支持,在此表示衷心的感謝!
由于時間倉促,編者水平有限,書中難免存在疏漏或不足之處,懇請讀者批評指正,以
便及時修改和完善。
編者
2019年6月
文前-2校.indd32019-8-2310:30:55
CONTENTS目錄
第1章?數(shù)據(jù)分析概述...............12.4.1認(rèn)識主頁.................................14
.............................
1.1大數(shù)據(jù)簡介......................................................12.4.2連接到文件16
.........................
1.2數(shù)據(jù)可視化......................................................22.4.3連接到數(shù)據(jù)庫17
.........
1.2.1數(shù)據(jù)可視化概述......................22.4.4創(chuàng)建項目和添加數(shù)據(jù)集18
.....................
1.2.2在線可視化工具......................22.4.5項目的導(dǎo)入導(dǎo)出23
.........................
1.2.3專業(yè)可視化軟件......................32.4.6工作界面簡介26
........
1.3數(shù)據(jù)挖掘...........................................................42.5OracleDVD支持的數(shù)據(jù)類型27
.............
1.3.1數(shù)據(jù)挖掘概述..........................42.5.1定性數(shù)據(jù)與定量數(shù)據(jù)27
.............................
1.3.2常用數(shù)據(jù)挖掘工具..................42.5.2度量和屬性32
.............................
1.4數(shù)據(jù)分析...........................................................52.5.3連續(xù)和離散33
.........................
1.4.1數(shù)據(jù)分析概述..........................52.5.4數(shù)據(jù)轉(zhuǎn)換選項33
.............................................
1.4.2數(shù)據(jù)分析的目的與分類..........52.6創(chuàng)作一個畫布35
.....................
1.4.3數(shù)據(jù)分析的作用......................52.6.1畫布新建與設(shè)置36
.....
1.5數(shù)據(jù)分析的步驟...........................................62.6.2將數(shù)據(jù)添加到可視化畫布36
.............
1.6數(shù)據(jù)分析方法論...........................................72.6.3添加多個可視化圖表38
.....................
1.7常見數(shù)據(jù)分析法則.....................................82.6.4更改可視化類型39
2.6.5調(diào)整可視化屬性.....................41
第2章?數(shù)據(jù)可視化初步............10
2.6.6顏色設(shè)置.................................42
2.1OracleDV產(chǎn)品簡介............................10
2.6.7大?。▽挾龋┰O(shè)置.................45
2.2軟件安裝........................................................11
2.6.8排序和篩選.............................45
2.2.1硬件要求.................................11
2.6.9數(shù)據(jù)的鉆探.............................48
2.2.2安裝OracleDVD....................12
2.6.10用作篩選器...........................48
2.2.3安裝DVML............................13
2.6.11導(dǎo)出畫布...............................49
2.3其他數(shù)據(jù)可視化工具.............................13
............
2.3.1Excel........................................13第3章?數(shù)據(jù)可視化進階51
........................................
2.3.2Tableau....................................133.1運算符和表達(dá)式51
.............................
2.3.3PowerBI.................................133.1.1算術(shù)表達(dá)式52
.............................
2.3.4ECharts....................................143.1.2關(guān)系表達(dá)式52
.............................
2.4OracleDVD功能介紹........................143.1.3邏輯表達(dá)式53
文前-2校.indd12019-8-2310:30:55
II數(shù)據(jù)可視化與分析基礎(chǔ)
3.2添加計算........................................................534.2.3數(shù)據(jù)流構(gòu)建...........................123
3.3主要功能函數(shù)簡介..................................564.2.4模型簡介...............................125
3.3.1COUNT()函數(shù)......................564.3數(shù)據(jù)整理.....................................................127
3.3.2TOPN()函數(shù)..........................584.3.1數(shù)據(jù)的屬性...........................128
3.3.3Case(if)函數(shù)............................594.3.2數(shù)據(jù)的角色...........................128
3.4創(chuàng)建圖表........................................................614.3.3數(shù)據(jù)的導(dǎo)入...........................128
3.4.1條形圖....................................614.3.4數(shù)據(jù)的集成...........................133
3.4.2水平條形圖.............................714.3.5數(shù)據(jù)的導(dǎo)出...........................135
3.4.3線形圖....................................724.4數(shù)據(jù)建?!獩Q策樹..........................136
3.4.4面積圖....................................774.4.1決策樹案例...........................136
3.4.5餅圖........................................804.4.2用戶畫像案例.......................140
3.4.6旭日圖....................................844.5數(shù)據(jù)建?!P(guān)聯(lián)分析....................142
3.4.7雷達(dá)線....................................864.5.1關(guān)聯(lián)參數(shù)...............................142
3.4.8網(wǎng)格熱圖.................................884.5.2關(guān)聯(lián)分析案例.......................144
3.4.9樹狀圖....................................91
第5章?數(shù)據(jù)分析報告............147
3.4.10標(biāo)記云...................................92
5.1數(shù)據(jù)分析報告概述...............................147
3.4.11散點圖...................................95
5.2數(shù)據(jù)分析報告的寫作原則...............147
3.4.12組合圖表.............................102
5.3數(shù)據(jù)分析報告的結(jié)構(gòu)..........................148
3.4.13瀑布圖.................................105
5.4數(shù)據(jù)分析報告排版..........................149
3.4.14箱線圖.................................108
....
3.4.15地圖....................................110第6章?綜合案例(成績分析)156
3.5創(chuàng)建故事.....................................................1136.1數(shù)據(jù)整理.....................................................156
6.2人數(shù)分析.....................................................163
第4章?數(shù)據(jù)挖掘基礎(chǔ)............116
6.3生源地分析................................................166
4.1數(shù)據(jù)挖掘概述..........................................116
6.4成績分析.....................................................166
4.1.1數(shù)據(jù)挖掘的分類...................116
6.5敘述................................................................171
4.1.2數(shù)據(jù)挖掘的步驟...................117
......
4.1.3數(shù)據(jù)挖掘的應(yīng)用...................118附錄A?數(shù)據(jù)分析報告評分表172
4.1.4數(shù)據(jù)挖掘的案例...................119
附錄B?數(shù)據(jù)分析報告示例........173
4.2IBMSPSSModeler18簡介.......120
.........
4.2.1軟件下載與安裝...................121附錄C?Access基本操作188
.......................
4.2.2軟件界面介紹121參考文獻......................194
文前-2校.indd22019-8-2310:30:55
第1章
數(shù)據(jù)分析概述
在當(dāng)今飛速發(fā)展的數(shù)字化社會,數(shù)據(jù)量呈現(xiàn)井噴式增長,如何從這些數(shù)據(jù)中提取有效信息
顯得尤為重要和迫切。一個專業(yè)的數(shù)據(jù)分析師,除了需要掌握各項操作技能,了解各種數(shù)據(jù)分
析工具,更重要的是具備數(shù)據(jù)分析的思維邏輯。
本章將著重介紹數(shù)據(jù)分析領(lǐng)域的相關(guān)概念、工具及方法,幫助讀者了解大數(shù)據(jù)、數(shù)據(jù)可視化、
數(shù)據(jù)挖掘、數(shù)據(jù)分析的步驟、方法和分析法則,為后續(xù)的學(xué)習(xí)打下扎實的理論基礎(chǔ)。
1.1大數(shù)據(jù)簡介
大數(shù)據(jù)(BigData)又稱巨量資料,是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)
力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資源。
大數(shù)據(jù)具有以下5V特征:
(1)Volume(大量):指的是巨大的數(shù)據(jù)量,包括采集、存儲及計算過程中的數(shù)據(jù)。大
數(shù)據(jù)的起始計算單位一般是PB、EB或ZB。
其中,數(shù)據(jù)量的單位換算如下:
1GB(GigaByte、吉字節(jié))=1024MB;
1TB(TrillionByte、太字節(jié))=1024GB;
1PB(PetaByte、拍字節(jié))=1024TB;
1EB(ExaByte、艾字節(jié))=1024PB;
1ZB(ZettaByte、澤字節(jié))=1024EB。
(2)Velocity(高速):指的是數(shù)據(jù)增長速度快,處理速度也快,時效性要求高。
(3)Variety(多樣):指的是種類和數(shù)據(jù)來源多樣化,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化
數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,多類型的數(shù)據(jù)對數(shù)據(jù)的處
理能力提出了更高的要求。
(4)Value(價值):指的是數(shù)據(jù)價值密度相對較低。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,
正文-2校.indd12019-8-2313:53:58
2數(shù)據(jù)可視化與分析基礎(chǔ)
信息感知無處不在,而價值密度的高低與數(shù)據(jù)總量的大小成反比,因此,如何通過強大的機器
算法迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)背景下亟待解決的難題。
(5)Veracity(真實性):指的是數(shù)據(jù)的準(zhǔn)確性和可信賴度,即數(shù)據(jù)的質(zhì)量。
1.2數(shù)據(jù)可視化
1.2.1數(shù)據(jù)可視化概述
數(shù)據(jù)可視化旨在借助圖形化手段,清晰有效地傳達(dá)數(shù)據(jù)中蘊含的信息,其本質(zhì)是將復(fù)雜的
數(shù)據(jù)用視覺展示的方式增強用戶對數(shù)據(jù)的理解,以準(zhǔn)確、形象、快速的傳達(dá)方式凸顯數(shù)據(jù)的含義。
數(shù)據(jù)可視化綜合應(yīng)用計算機科學(xué)、圖形學(xué)、可視化設(shè)計、心理學(xué)等多個領(lǐng)域的知識,運用符合
人類視覺系統(tǒng)的方式為用戶提供簡潔、直觀、形象、有趣、易于理解的數(shù)據(jù)展示,從而幫助用
戶了解數(shù)據(jù),應(yīng)用數(shù)據(jù)。
值得一提的是:數(shù)據(jù)可視化是一個處于不斷演變中的概念,其邊界在不斷地擴大中,涵蓋
的范圍也變得越來越廣。
1.2.2在線可視化工具
常見的在線可視化工具有以下幾種:
1.ECharts
ECharts(網(wǎng)址/)是一個免費的、功能強大的、可視化的庫。它
可以流暢地運行在PC和移動設(shè)備上,兼容當(dāng)前絕大部分瀏覽器(如IE8/9/10/11、Chrome、
Firefox、Safari等),底層依賴輕量級的Canvas類庫ZRender,提供直觀、生動、可交互、可高
度個性化定制的數(shù)據(jù)可視化圖表。簡單地說,ECharts就是一個幫助數(shù)據(jù)可視化的庫。
2.GAPMINDER
GAPMINDER(網(wǎng)址/)是位于瑞典斯德哥爾摩的一個非營利機構(gòu),
他們收集了大量的國際統(tǒng)計數(shù)據(jù),用非常簡單形象而極富動感的方式進行展示,既可在線播放,
又可下載(每次聯(lián)網(wǎng)時會自動下載更新數(shù)據(jù)),免費使用。
3.D3
D3(網(wǎng)址/)的全稱是Data-DrivenDocuments,顧名思義是一個被數(shù)據(jù)驅(qū)動的
文檔,它是一個JavaScript函數(shù)庫,主要用于數(shù)據(jù)可視化的展現(xiàn)。
4.RAWGraphs
RAWGraphs(網(wǎng)址https://rawgraphs.io/)號稱“電子表格和矢量圖形之間的缺失鏈接”,它
建立在D3.js之上,界面設(shè)計直觀,開源免費,不需要任何注冊。它有21種圖表類型的庫供選擇,
所有的處理均在瀏覽器中完成。此外,RAWGraphs是高度可定制和可擴展的,甚至可以接受新
的自定義布局。
5.Datawrapper
Datawrapper(網(wǎng)址https://www.datawrapper.de/)是一個用于制作交互式圖表的在線數(shù)據(jù)可視
正文-2校.indd22019-8-2313:53:58
第1章數(shù)據(jù)分析概述3
化工具。通過從CSV文件上傳數(shù)據(jù)或直接將其粘貼到字段中,Datawrapper將生成相關(guān)的可視
化文件,非常容易使用和生產(chǎn)有效的圖形。
6.TableauOnline
TableauOnline(網(wǎng)址/zh-cn/products/online)是目前較為流行的可視
化工具,它支持各種圖表、圖形、地圖和其他圖形,是一個完全免費的工具,用戶用它制作的
圖表可以很容易地嵌入任何網(wǎng)頁中,無須離開瀏覽器,即可連接到數(shù)據(jù)源,也可以使用Web制
作功能新建工作簿和可視化。此外,Tableau還有可供下載的付費版本。
7.Plotly
Plotly(網(wǎng)址https://plot.ly/)是一個開源的Python庫,可以完成基于Web的數(shù)據(jù)分析和繪
圖。使用Plotly輸出的結(jié)果是一個使用Plotly.js繪制而成的交互網(wǎng)頁,同樣支持生成靜態(tài)圖表,
如pdf、png等。
8.VisualizeFree
VisualizeFree(網(wǎng)址/)是一個免費的可視化工具,其本質(zhì)上是
一個托管平臺,允許用戶使用公開的或者自行上傳的數(shù)據(jù)集,然后依據(jù)設(shè)置,構(gòu)建完成交互式
可視化的演示數(shù)據(jù)。
1.2.3專業(yè)可視化軟件
相對于在線可視化工具的單一功能,以下3種專業(yè)可視化軟件的功能則強大得多。
1.OracleDataVisualization
OracleDataVisualization是Oracle推出的一款數(shù)據(jù)可視化獨立產(chǎn)品,也是OracleBI產(chǎn)品
BIEE的一部分。OracleDataVisualization的產(chǎn)品組件,不僅僅支持本地部署,也可以在云端方
便地訪問,甚至在個人計算機的桌面,用戶也可以隨時隨地自如地分析任何來自個人或企業(yè)內(nèi)
部的數(shù)據(jù)。
OracleDataVisualization在方便用戶使用、加速交互性的同時,可保證數(shù)據(jù)的準(zhǔn)確性和一致
性,并具有以下亮點。
可視:讓豐富的可視化控件顯示數(shù)據(jù),并且方便地分享給其他人。
簡單:不論是加載數(shù)據(jù),或者混搭不同來源的數(shù)據(jù),還是以拖動的方式進行交互性探索,
都以用戶期望的方式進行。
快速:只需要通過點擊,就可以快速地檢索數(shù)據(jù),找到更多的答案和洞察業(yè)務(wù)。
智能:對數(shù)據(jù)進行解讀,推薦最佳的表現(xiàn)形式,并可以根據(jù)上下文自動進行聯(lián)動。
OracleDataVisualization可以有多種部署選擇,包括云端的DataVisualizationCloudService
(DVCS)、本地部署的DataVisualization(DV)以及桌面版DataVisualizationDesktop(DVD)。
用戶可以根據(jù)自己的實際需要,選擇任何一種工作方式,利用相同的技術(shù)進行自助式的數(shù)據(jù)探
索,并且可以在不同的工作方式中,非常容易地進行遷移和共享。
2.PowerBI
PowerBI是微軟旗下的一款一體化的BI和分析平臺,提供“即服務(wù)”或者桌面客戶端,但
是評分最高的還屬其可視化功能??梢暬軌蛑苯訌膱蟾嬷袆?chuàng)建,可以與整個組織的用戶共享。
正文-2校.indd32019-8-2313:53:58
4數(shù)據(jù)可視化與分析基礎(chǔ)
除了大量的內(nèi)置可視化樣式外,也可以在AppSource社區(qū)不斷創(chuàng)建新的可視化樣式,或者如果
用戶想自己編碼,那么可以使用開發(fā)人員工具(DeveloperTools)從頭開始創(chuàng)建并與其他用戶共
享。它還包括一個自然語言界面,允許通過簡單的搜索詞建立不同復(fù)雜度的可視化。
3.Tableau
Tableau是能夠幫助用戶查看并理解數(shù)據(jù)的商業(yè)智能軟件,具有快速分析、簡單易用、不
限數(shù)據(jù)源、智能儀表板、自動更新、瞬時共享等特點。收費版功能較多,有TableauDesktop、
TableauPrep、TableauOnline、TableauServer等多個版本。
1.3數(shù)據(jù)挖掘
1.3.1數(shù)據(jù)挖掘概述
在大數(shù)據(jù)時代,如果人們想要探究數(shù)據(jù)深層次的內(nèi)涵,離不開數(shù)據(jù)挖掘的操作。所謂數(shù)據(jù)
挖掘(DataMining),又稱資料探勘、數(shù)據(jù)采礦,一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏
于其中的信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、
機器學(xué)習(xí)、專家系統(tǒng)和模式識別等方法實現(xiàn)上述目標(biāo)。
數(shù)據(jù)挖掘常見的分析方法有:分類、估計、預(yù)測、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類復(fù)雜數(shù)據(jù)
類型挖掘等。
1.3.2常用數(shù)據(jù)挖掘工具
1.IBMSPSSModeler
IBMSPSSModeler是IBM開發(fā)的一款面向商業(yè)用戶的高品質(zhì)數(shù)據(jù)挖掘工具,該軟件擁有可
視化用戶界面,簡單易用,且包含多種挖掘算法,可快速建立數(shù)據(jù)模型,挖掘結(jié)果直觀易懂,
可應(yīng)用于商業(yè)活動,從而改進決策過程,故在數(shù)據(jù)挖掘領(lǐng)域具有較高的口碑。
2.R
R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)
組運算工具;完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而強大的編程語言;可操
作數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán),用戶可自定義功能。
3.OracleDataMining
OracleDataMining是OracleAdvancedAnalytics數(shù)據(jù)庫的一個組件,它提供了強大的數(shù)據(jù)
挖掘算法,可以讓數(shù)據(jù)分析師發(fā)現(xiàn)洞察、做出預(yù)測并利用其Oracle數(shù)據(jù)進行投資。OracleData
Mining中的算法以SQL函數(shù)形式實現(xiàn),可以挖掘數(shù)據(jù)表和視圖、星狀模式數(shù)據(jù),包括事務(wù)性數(shù)
據(jù)、聚合、非結(jié)構(gòu)化數(shù)據(jù)以及空間數(shù)據(jù)。
4.Weka
Weka是一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,
包括對數(shù)據(jù)進行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則,以及在新的交互式界面上的可視化。
Weka高級用戶可以通過Java編程和命令行來調(diào)用其分析組件。同時,Weka也為普通用戶
正文-2校.indd42019-8-2313:53:58
第1章數(shù)據(jù)分析概述5
提供圖形化界面,和R相比,Weka在統(tǒng)計分析方面較弱,但在機器學(xué)習(xí)方面要強得多。
5.RapidMiner
RapidMiner是一個用于機器學(xué)習(xí)和數(shù)據(jù)挖掘?qū)嶒灥沫h(huán)境,用于研究和實際的數(shù)據(jù)挖掘任務(wù),
是世界領(lǐng)先的數(shù)據(jù)挖掘開源系統(tǒng)。該工具用Java編程語言編寫,通過基于模板的框架提供高級
分析。
6.KNIME
KNIME是一個基于Eclipse平臺開發(fā),模塊化的數(shù)據(jù)挖掘系統(tǒng),它能夠讓用戶可視化創(chuàng)建
數(shù)據(jù)流,選擇性地執(zhí)行部分或所有分解步驟,然后通過數(shù)據(jù)和模型上的交互式視圖研究執(zhí)行后
的結(jié)果。
1.4數(shù)據(jù)分析
1.4.1數(shù)據(jù)分析概述
所謂數(shù)據(jù)分析,是指用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯
總、理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。
1.4.2數(shù)據(jù)分析的目的與分類
數(shù)據(jù)分析的目的是把隱藏在大批看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,總結(jié)所
研究對象的內(nèi)在規(guī)律,幫助管理者進行有效的判斷和決策。
數(shù)據(jù)分析的分類可分為以下3種。
(1)描述性數(shù)據(jù)分析:側(cè)重于概括和表述數(shù)據(jù)的整體狀況。
(2)探索性數(shù)據(jù)分析:側(cè)重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征。
(3)驗證性數(shù)據(jù)分析:側(cè)重于驗證已有假設(shè)的真?zhèn)巍?/p>
1.4.3數(shù)據(jù)分析的作用
數(shù)據(jù)分析的作用主要體現(xiàn)在以下幾方面:
1.市場營銷方面
通過數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù),可以精準(zhǔn)尋找目標(biāo)用戶,發(fā)現(xiàn)用戶特征,構(gòu)建用戶畫像,
預(yù)測用戶行為,對用戶進行合理分群,用戶偏好預(yù)測、用戶個性化推薦等。
此外,通過對用戶行為分析研究,針對用戶的多維度屬性、標(biāo)簽和行為數(shù)據(jù),對用戶流失
預(yù)警、用戶生命周期分析、用戶影響力分析、用戶價值分析等相關(guān)用戶行為進行研究。
再者,通過監(jiān)測并分析行業(yè)競品情況,收集并解讀相關(guān)用戶和市場研究報告,為公司產(chǎn)品
規(guī)劃提供支持,對行業(yè)競爭品和行情進行監(jiān)控。
2.運營管理方面
在運營管理方面,通過對日常報告和數(shù)據(jù)的制作與維護,運營人員可以對公司業(yè)務(wù)的運營
情況展開深入分析,提出發(fā)展策略和建議。借助于監(jiān)控評估運營活動效能,運營人員也可以評
正文-2校.indd52019-8-2313:53:58
6數(shù)據(jù)可視化與分析基礎(chǔ)
估運營活動效能,提出營銷活動優(yōu)化和成本控制解決方案,并主導(dǎo)或協(xié)助落實。在公司管理層面,
通過數(shù)據(jù)分析,可以針對運營團隊整體KPI考核及情況制定對應(yīng)績效考核方案并跟蹤績效考核
實施。
3.產(chǎn)品研發(fā)方面
數(shù)據(jù)分析可以幫助產(chǎn)品進行優(yōu)化升級,并對新產(chǎn)品的研發(fā)提供有效的數(shù)據(jù)支持。
4.大數(shù)據(jù)平臺支持方面
對于基金、證券、期貨、投資這些金融行業(yè),每天都會產(chǎn)生大量的數(shù)據(jù),這些海量的數(shù)據(jù)
更是離不開數(shù)據(jù)分析的輔助,對于深層次的數(shù)據(jù)挖掘具有強大的應(yīng)用前景。
5.其他方面
此外,數(shù)據(jù)分析在餐飲行業(yè)、旅游行業(yè)、快速消費品行業(yè)、教育行業(yè)、物流行業(yè)、互聯(lián)網(wǎng)
金融行業(yè)、建筑業(yè)等都具有舉足輕重的價值,在如今這個時代,誰先認(rèn)識到數(shù)據(jù)分析的巨大潛
力并付諸行動,誰就能搶占先機。
1.5數(shù)據(jù)分析的步驟
數(shù)據(jù)分析過程包括6個循序漸進的基本步驟,它們?nèi)币徊豢?,相輔相成,也是企業(yè)在數(shù)據(jù)
分析時必不可少的步驟。
1.明確分析目的和思路
明確分析目的和思路有助于幫助分析者提供清晰的指引方向,保證數(shù)據(jù)分析的有效進行。
2.?dāng)?shù)據(jù)收集
數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析目的收集相關(guān)數(shù)據(jù)的過程,它為數(shù)據(jù)分析提供基礎(chǔ),一般
數(shù)據(jù)來源于以下4個渠道。
(1)權(quán)威機構(gòu):各國各級政府公開發(fā)布的數(shù)據(jù),如中國國家統(tǒng)計局等。
(2)互聯(lián)網(wǎng):網(wǎng)絡(luò)平臺上公開的數(shù)據(jù)信息,如微博、百度、大眾點評等。
(3)市場調(diào)查:自發(fā)進行的調(diào)研活動,向特定的群體收集數(shù)據(jù)。
(4)企業(yè)數(shù)據(jù)庫:企業(yè)掌握的生產(chǎn)、運營數(shù)據(jù),一般這類數(shù)據(jù)不會公開發(fā)布,或者,經(jīng)
過脫敏后公開使用。
3.?dāng)?shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是指對收集到的數(shù)據(jù)進行加工整理,形成適合數(shù)據(jù)分析的樣式,是數(shù)據(jù)分析前
必不可少的階段,其目的是從大量的、雜亂無章、難以理解的數(shù)據(jù)中,抽取并導(dǎo)出對解決問題
有價值、有意義的數(shù)據(jù),從而提高數(shù)據(jù)分析的效率。
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等。
4.?dāng)?shù)據(jù)分析
數(shù)據(jù)分析是指用適當(dāng)?shù)姆治龇椒肮ぞ?,對處理過的數(shù)據(jù)進行分析,提取有價值的信息,
形成有效結(jié)論的過程。
數(shù)據(jù)分析分為以下3大類。
(1)描述性數(shù)據(jù)分析:側(cè)重于概括和表述數(shù)據(jù)的整體狀況,包括數(shù)量統(tǒng)計、數(shù)據(jù)缺失情況、
正文-2校.indd62019-8-2313:53:58
第1章數(shù)據(jù)分析概述7
樣本分布、平均值、分位數(shù)、方差、指標(biāo)在時間和空間上的變化趨勢等。
(2)探索性數(shù)據(jù)分析:側(cè)重于在數(shù)據(jù)中發(fā)現(xiàn)新的特征。
(3)驗證性數(shù)據(jù)分析:側(cè)重于驗證已有假設(shè)的真?zhèn)巍?/p>
5.?dāng)?shù)據(jù)展現(xiàn)
數(shù)據(jù)展現(xiàn)在數(shù)據(jù)分析步驟中是一個重要的角色,只有將收集的數(shù)據(jù)通過處理和分析,形成
有用的信息,并且用圖形,如柱形圖、餅圖、折線圖等進行展現(xiàn),能讓人們一目了然地發(fā)現(xiàn)數(shù)
據(jù)的本質(zhì)以及作用,數(shù)據(jù)展現(xiàn)需要做到內(nèi)容清晰易理解,信息完整明確、簡潔美觀。
6.報告撰寫
報告撰寫是數(shù)據(jù)分析的最后一步,是整個數(shù)據(jù)分析過程的總結(jié),是給企業(yè)決策者的一種參
考,為決策者提供科學(xué)、嚴(yán)謹(jǐn)?shù)臎Q策依據(jù)。
一份優(yōu)秀的數(shù)據(jù)分析報告,需要有一個明確的主題、一個清晰的目錄,圖文并茂地闡述數(shù)據(jù),
條理清晰地呈現(xiàn)結(jié)論,使決策者能一目了然地看出報告的核心內(nèi)容,這樣既能給閱讀者視覺上
的沖擊,又能很明確地闡述數(shù)據(jù)分析的核心內(nèi)容。最后,需要加上結(jié)論以及建議,這樣不僅可
以給決策者指出問題,還可以提供方案和想法,以便決策者在決策時作為參考。
1.6數(shù)據(jù)分析方法論
數(shù)據(jù)分析方法論是從宏觀角度出發(fā),指導(dǎo)數(shù)據(jù)分析師進行一個完整的數(shù)據(jù)分析的過程,它
是一個指南針,為數(shù)據(jù)分析師指明數(shù)據(jù)分析的正確方向。
數(shù)據(jù)分析方法論是指數(shù)據(jù)分析的思路,是數(shù)據(jù)分析的前期規(guī)劃,指導(dǎo)著后期數(shù)據(jù)分析工作
的開展。數(shù)據(jù)分析方法論好比裝修設(shè)計圖,它為數(shù)據(jù)分析工作提供工作框架和指引,而數(shù)據(jù)分
析方法好比裝修的工具和技術(shù),它為數(shù)據(jù)分析提供技術(shù)的方法和保障。
1.PEST分析
PEST分析是分析企業(yè)外部宏觀環(huán)境的一種方法,雖然不同的企業(yè)和行業(yè)受宏觀環(huán)境的影
響會有一定的差異,但一般企業(yè)和行業(yè)進行宏觀環(huán)境分析時,必然會進行政治環(huán)境(Political)、
經(jīng)濟環(huán)境(Economic)、技術(shù)環(huán)境(Technological)、社會環(huán)境(Social)分析,這四個環(huán)境是
影響企業(yè)的外部環(huán)境因素。
2.5W2H
5W2H分析法又稱七何分析法,是以5個W開頭的英文單詞和2個H開頭的英文單詞進
行提問,從回答中發(fā)現(xiàn)問題的線索以及解決方法,它簡單、方便、易于理解與使用,廣泛用于
企業(yè)管理和技術(shù)活動,對于決策和執(zhí)行性的活動措施非常有幫助,并且有助于彌補問題的疏漏。
5W2H指:為什么(Why)、做什么(What)、什么人做(Who)、什么時候(When)、什
么地方(Where)、如何做(How)、什么價格(Howmuch)。
3.邏輯樹分析法
邏輯樹又稱問題樹、演繹樹或分解樹等,邏輯樹是將問題的所有子問題分層羅列,從最高
層開始,逐步向下擴展,并把一個已知問題當(dāng)成樹干,然后開始考慮這個問題和哪些問題有關(guān),
每想到一點,就給這個問題所在的樹干加一個“樹枝”,并標(biāo)明這個“樹枝”代表什么問題,
正文-2校.indd72019-8-2313:53:58
8數(shù)據(jù)可視化與分析基礎(chǔ)
一個大的“樹枝”上還可以有小的“樹枝”,依此類推,找出與問題相關(guān)聯(lián)的所有項目。
邏輯樹主要是幫助數(shù)據(jù)分析師理清自己的思路,避免進行重復(fù)和無關(guān)的思考。
4.4P營銷理論
4P營銷理論產(chǎn)生于20世紀(jì)60年代的美國,它是隨著營銷組合理論的提出而出現(xiàn)的,營銷
組合實際上有幾十個要素,這些要素可以概括為以下4類:產(chǎn)品(Product)、價格(Price)、
渠道(Place)、宣傳(Promotion)。
5.用戶行為理論
用戶行為是指用戶為獲取、使用物品或者服務(wù)所采取的各種活動,用戶對產(chǎn)品首先需要有
一個認(rèn)知、熟悉的過程,然后試用,再決定是否繼續(xù)消費使用,最后成為忠誠用戶。
1.7常見數(shù)據(jù)分析法則
1.四象限法則
四象限法則是數(shù)據(jù)分析中經(jīng)常被用到且非常重要的一個分析方法,在應(yīng)用上有著多種變化。
所謂四象限法則,是指通過對兩種維度的劃分,運用坐標(biāo)的方式表達(dá)出想要的價值,由價值直
接轉(zhuǎn)變?yōu)椴呗?,從而進行一些項目的推動。四象限法則是一種策略驅(qū)動的思維,廣泛應(yīng)用于戰(zhàn)
略分析、產(chǎn)品分析、市場分析、客戶管理、用戶管理、商品管理等,其優(yōu)點是直觀、清晰,可
以對數(shù)據(jù)進行人工劃分,劃分結(jié)果可以直接應(yīng)用于策略。通過運用四象限法則分析數(shù)據(jù),可以
快速地找到問題的共性原因,建立分組優(yōu)化策略。
2.同期群分析
所謂同期群分析,是指按時間維度對用戶建立分組,觀察分組用戶的行為特征表現(xiàn),其目
的在于透過現(xiàn)象找到結(jié)果。以時間維度建立同期群,除按時間維度考慮,也可以按來源渠道等
維度建立同期群。
3.假設(shè)分析
在沒有直觀數(shù)據(jù)或者線索能進行分析的情況下,可以采用假設(shè)分析的方法進行綜合考慮,
以假設(shè)先行的方法進行推斷,通過人工設(shè)置一個變量來進行反證。例如:新產(chǎn)品的預(yù)期銷量、
未來某段時間內(nèi)的景區(qū)熱門度之類的。假設(shè)分析是一種啟發(fā)思考驅(qū)動的思維,它更多是一種思
考方法,即假設(shè)、驗證并加以判斷。
4.指數(shù)法
指數(shù)法主要有線性加權(quán)、反比例、log三種方法,是一種目標(biāo)驅(qū)動的思維,是將無法利用的
數(shù)據(jù)加工成可利用的,從而進行分析。但是指數(shù)法沒有統(tǒng)一的標(biāo)準(zhǔn),很多指數(shù)更依賴經(jīng)驗來進
行加工。指數(shù)法的優(yōu)點是目標(biāo)驅(qū)動力強、直觀、簡潔、有效,對業(yè)務(wù)有一定的指導(dǎo)作用,一旦
設(shè)立指數(shù)不易頻繁變動。
5.帕累托法則
帕累托法則,又稱二八定律、關(guān)鍵少數(shù)法則、不平衡原則等,被廣泛應(yīng)用于社會學(xué)及企業(yè)
管理學(xué)等,它以19世紀(jì)末20世紀(jì)初意大利經(jīng)濟學(xué)家帕累托命名。因為他發(fā)現(xiàn),在任何一組東
西中,最重要的只占其中小部分,約20%,其余80%盡管是多數(shù),卻是次要的。
正文-2校.indd82019-8-2313:53:58
第1章數(shù)據(jù)分析概述9
帕累托法則是一種只抓重點的思維,應(yīng)用于絕大多數(shù)的領(lǐng)域,因此,這種分析思維幾乎沒
有什么局限性。但是在一些特定的情況下數(shù)據(jù)分析依舊不能放棄全局,否則就會使思路變得
狹隘。
6.對比分析法
對比分析法是一種挖掘數(shù)據(jù)規(guī)律的思維方式,一次合格的數(shù)據(jù)分析一般都會用到多次對比,
如競爭對手對比、時間同比環(huán)比、類別對比、轉(zhuǎn)化對比、特征和屬性對比、前后變化的對比等。
在基于相同數(shù)據(jù)標(biāo)準(zhǔn)下,對比分析由其他影響因素所導(dǎo)致的數(shù)據(jù)差異,其目的在于找出差
異后進一步挖掘差異背后的原因,從而找到優(yōu)化的方法。
其優(yōu)點也是顯而易見的:對比分析法可以發(fā)現(xiàn)很多數(shù)據(jù)間的規(guī)律,可以與任何技巧結(jié)合。
7.漏斗分析
所謂漏斗分析,是一套流程式數(shù)據(jù)分析,它能夠科學(xué)反映用戶行為狀態(tài),以及從起點到終
點各階段用戶轉(zhuǎn)化率情況的重要分析模型。漏斗分析模型已經(jīng)廣泛應(yīng)用于網(wǎng)站用戶行為分析和
App用戶行為分析的流量監(jiān)控、產(chǎn)品目標(biāo)轉(zhuǎn)化等日常數(shù)據(jù)運營與數(shù)據(jù)分析的工作中。
漏斗分析最常用的是轉(zhuǎn)化率和流失率兩個互補型指標(biāo)。比如有10人訪問某電商網(wǎng)站,有3
人點擊注冊,有1人注冊成功。這個過程共有三步:第一步到第二步的轉(zhuǎn)化率為30%,流失率
為70%;第二步到第三步轉(zhuǎn)化率為33%,流失率為67%;整個過程的轉(zhuǎn)化率為10%,流失率為
90%。該模型就是經(jīng)典的漏斗分析模型。
正文-2校.indd92019-8-2313:53:58
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025智能化施工合同
- 出資比例 英語合同范例
- 云杉買賣合同范例
- 出售物品合同范例
- 買山合同范本
- 上海別墅合同范例
- 關(guān)于規(guī)范使用合同范例
- 2024年01月江蘇2024年淮安農(nóng)村商業(yè)銀行大學(xué)生寒假社會實踐招募筆試歷年參考題庫附帶答案詳解
- 兼職合同范例 行政
- 出租高爾夫商鋪合同范例
- 2025年中考物理終極押題猜想(新疆卷)(全解全析)
- 脛骨骨折的護理查房
- 抽水蓄能電站項目建設(shè)管理方案
- 電動工具培訓(xùn)課件
- 《智能網(wǎng)聯(lián)汽車智能傳感器測試與裝調(diào)》電子教案
- 視頻會議室改造方案
- 【中考真題】廣東省2024年中考語文真題試卷
- GB/T 32399-2024信息技術(shù)云計算參考架構(gòu)
- 2025年湖南省長沙市中考數(shù)學(xué)模擬試卷(附答案解析)
- 五級人工智能訓(xùn)練師(初級)職業(yè)技能等級認(rèn)定考試題庫(含答案)
- 2022年內(nèi)蒙古呼和浩特市中考化學(xué)真題(解析版)
評論
0/150
提交評論