商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件 第二章 商務(wù)數(shù)據(jù)分析方法和工具_第1頁
商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件 第二章 商務(wù)數(shù)據(jù)分析方法和工具_第2頁
商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件 第二章 商務(wù)數(shù)據(jù)分析方法和工具_第3頁
商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件 第二章 商務(wù)數(shù)據(jù)分析方法和工具_第4頁
商務(wù)數(shù)據(jù)分析基礎(chǔ) 課件 第二章 商務(wù)數(shù)據(jù)分析方法和工具_第5頁
已閱讀5頁,還剩78頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章商務(wù)數(shù)據(jù)分析方法和工具目錄1、分析方法2、工具1分析方法1.1描述性分析1.2診斷性分析1.2預(yù)測性分析1.1描述性分析【描述性】的分析回答What的問題:我的企業(yè)發(fā)生了什么?數(shù)據(jù)類型通常是綜合的、廣泛的、實時的、精確的,以高效的可視化來展現(xiàn)。比如,某公司的銷售月報,就是描述性分析。一個看板上匯總了各個地區(qū)的月度指標,如完成率、完成度,它是實時變動的,到月底自動匯總。它不光“描述”,還有一定程度的分析,可以滿足日常管理需求。比如揚州這個地區(qū),本月的目標完成率最低,但是年度目標完成率卻較好,是本月的銷售目標太高,還是考核上有松懈。如果是人為的松懈,年度考核是否也要記錄月度的考核成績?高效的可視化展現(xiàn),一方面是說,做這個報告的速度要快,即問即答,不能當某人想知道今天的情況怎么樣時,三天之后才有答案;另一方面是說,這個報告以“模板”的形式存在,數(shù)據(jù)變了,報告也會隨之變動,什么時候打開,什么時候都是最新的。描述性分析是所有分析形式中最常見的。在業(yè)務(wù)中,它為分析人員提供了業(yè)務(wù)中關(guān)鍵指標和措施的視圖,如公司每月的收支表。類似地,分析師可以獲得大量客戶的數(shù)據(jù)。了解客戶的人口統(tǒng)計信息(如我們的客戶的30%是個體經(jīng)營者)將被歸類為“描述性分析”,利用有效的可視化工具可以更好地呈現(xiàn)描述性分析的信息。1.2診斷性分析【診斷性】的分析回答Why的問題:為什么我的企業(yè)發(fā)生了這樣的事情?需要有從全局鉆取到細節(jié)的能力和隔離所有混淆信息的能力。比如查看數(shù)據(jù)地圖,發(fā)現(xiàn)江蘇的市場銷售額較高,想知道是什么原因,于是點擊該省份,能定位到各類產(chǎn)品的銷售數(shù)據(jù)和響應(yīng)的合作客戶數(shù)據(jù)。在對描述性數(shù)據(jù)進行評估時,診斷分析工具將使分析師能夠深入到細分的數(shù)據(jù),從而找出問題的根本原因。精心設(shè)計的商業(yè)信息(BI)儀表板有讀取時間序列數(shù)據(jù)(多個連續(xù)時間點的數(shù)據(jù))的功能,并具有過濾器和鉆取能力,可進行此類分析。1.3預(yù)測性分析【預(yù)測性】的分析回答的是WhatLikely的問題:我的企業(yè)將要發(fā)生什么?主要回答戰(zhàn)略性的問題:我的商業(yè)策略是否在一段時期內(nèi)保持一致,根據(jù)算法,用模型預(yù)測某個具體的結(jié)果。就像玩三國殺的時候,很多人喜歡諸葛亮,不停地使用“觀星”一樣,我們希望能夠預(yù)測某件事在未來發(fā)生的可能性,或是預(yù)測一個可以量化的值,甚至預(yù)測某個結(jié)果可能發(fā)生的時間點。如何實現(xiàn)預(yù)測,一方面取決于工具,但更重要的,取決于預(yù)測模型。預(yù)測分析是關(guān)于預(yù)測的。無論是預(yù)測將來發(fā)生事件的可能性,還是預(yù)測可量化的數(shù)值,抑或是估計可能發(fā)生事件的時間點,這些都是通過預(yù)測模型完成的。預(yù)測模型通常利用各種可變數(shù)據(jù)進行預(yù)測。數(shù)據(jù)的變異性與預(yù)測結(jié)果密切相關(guān)(例如,年齡越大的人,對心臟病發(fā)作的敏感程度越高———我們會說年齡與心臟病發(fā)作風(fēng)險呈線性相關(guān)),然后將這些數(shù)據(jù)一起編譯成分數(shù)或預(yù)測。在充滿不確定性的環(huán)境中,預(yù)測能夠幫助做出更好的決定。預(yù)測模型也是許多領(lǐng)域中正在使用的重要方法。2工具2.1數(shù)據(jù)采集工具2.2

數(shù)據(jù)存儲工具2.3

數(shù)據(jù)處理工具2.4

數(shù)據(jù)分析工具2.1數(shù)據(jù)采集工具1.八爪魚采集器/火車采集器(火車)八爪魚采集器是一款使用簡單、功能強大的網(wǎng)絡(luò)爬蟲工具,可實現(xiàn)可視化操作,無須編寫代碼,內(nèi)置海量模板,支持任意網(wǎng)絡(luò)數(shù)據(jù)的抓取;火車采集器是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析、挖掘軟件,可以靈活、迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息,并通過一系列的分析處理,準確挖掘出所需數(shù)據(jù)。

下面以八爪魚采集器為例,重點介紹該類采集器的功能及使用方法。(1)八爪魚采集器的功能:1)云采集:5000臺云服務(wù)器,24×7小時高效穩(wěn)定不間斷采集,結(jié)合API可無縫對接內(nèi)部系統(tǒng),定期同步爬取數(shù)據(jù)。2)智能防封:自動破解多種驗證碼,提供代理IP池,結(jié)合UA切換,可有效突破封鎖,順利采集數(shù)據(jù)。3)全網(wǎng)適用:眼見即可采,不管是文字圖片,還是貼吧論壇,支持所有業(yè)務(wù)渠道的數(shù)據(jù)爬取,滿足各種采集需求。4)海量模板:內(nèi)置數(shù)百個網(wǎng)站數(shù)據(jù)源,全面覆蓋多個行業(yè),只需簡單設(shè)置,就可快速準確獲取數(shù)據(jù)。5)簡單易用:無須再學(xué)爬蟲編程技術(shù),簡單三步就可以輕松抓取網(wǎng)頁數(shù)據(jù),支持多種格式一鍵導(dǎo)出,快速導(dǎo)入數(shù)據(jù)庫。6)穩(wěn)定高效:有分布式云集群服務(wù)器和多用戶協(xié)作管理平臺的支撐,可靈活調(diào)度任務(wù),順利爬取海量數(shù)據(jù)。爬取方法:以爬取京東眾籌為例進行講解。步驟一:打開八爪魚采集器,如圖21所示,選擇“自定義采集”。圖2-1八爪魚頁面圖步驟二:將網(wǎng)址輸入“網(wǎng)址”框內(nèi),單擊“保存網(wǎng)址”按鈕,如圖22所示。圖2-2保存網(wǎng)址步驟三:在出現(xiàn)的網(wǎng)址內(nèi)容中單擊“下一頁”按鈕,如圖2-3所示。在彈出的“操作提示”對話框中,單擊“循環(huán)點擊下一頁”選項,如圖2-4所示。圖2-3單擊“下一頁”按鈕圖2-4單擊“循環(huán)點擊下一頁”選項步驟四:選中網(wǎng)頁第一行第一個圖片,結(jié)果如圖2-5所示。在彈出的“操作提示”對話框中單擊“選中全部”選項,結(jié)果如圖2-6所示。在再次彈出的“操作提示”對話框中單擊“循環(huán)點擊每個圖片”,結(jié)果如圖2-7所示。圖2-5選中網(wǎng)頁第一行第一個圖片圖2-6單擊“選中全部”圖27單擊“循環(huán)點擊每個圖片”步驟五:在出現(xiàn)的網(wǎng)頁中選取所要搜集的信息。1)選擇價格:單擊“價格”,在彈出的“操作提示”對話框中單擊“采集該元素的文本”,如圖2-8所示。圖2-8選擇“價格”頁面元素2)選擇當前進度:單擊“當前進度”,在彈出的“操作提示”對話框中單擊“采集該元素的文本”,如圖2-9所示,依此類推。圖2-9采集“當前進度”元素文本步驟六:打開流程界面,將所搜集的數(shù)據(jù)進行命名,單擊“確定”按鈕,然后單擊“開始采集”按鈕,接著單擊“啟動本地采集”按鈕。1)打開流程界面,將所搜集的數(shù)據(jù)進行命名,單擊“確定”按鈕,然后并單擊“開始采集”按鈕,如圖2-10所示。圖2-10保存并開始采集2)單擊“啟動本地采集”按鈕,如圖211所示。圖2-11啟動本地采集步驟七:結(jié)果呈現(xiàn),如圖2-12所示。圖2-12結(jié)果呈現(xiàn)2.Python(爬蟲)爬蟲的概念

如果我們把互聯(lián)網(wǎng)比做一張大的蜘蛛網(wǎng),數(shù)據(jù)便存放于蜘蛛網(wǎng)的各個節(jié)點,而爬蟲就是一只小蜘蛛,沿著網(wǎng)絡(luò)抓取自己的獵物(數(shù)據(jù))。爬蟲指的是向網(wǎng)站發(fā)起請求,獲取資源后分析并提取有用數(shù)據(jù)的程序;從技術(shù)層面來說,就是通過程序模擬瀏覽器請求站點的行為,把站點返回的HTML代碼、JSON數(shù)據(jù)、二進制數(shù)據(jù)(圖片、視頻)爬到本地,進而提取自己需要的數(shù)據(jù),存放起來使用。。(2)爬蟲基本流程爬蟲流程圖如圖2-13所示。圖213爬蟲流程圖1)發(fā)送請求。使用http庫向目標站點發(fā)起請求,即發(fā)送一個Request。請求包含請求頭、請求體等。請求模塊的缺陷:不能執(zhí)行JS和CSS代碼。2)獲取響應(yīng)內(nèi)容。如果服務(wù)器能正常響應(yīng),則會得到一個Response。響應(yīng)包含html、json、圖片、視頻等。3)解析內(nèi)容。①解析html數(shù)據(jù):正則表達式(RE模塊);第三方解析庫,如Beautifulsoup、Pyquery等。②解析json數(shù)據(jù):json模塊。③解析二進制數(shù)據(jù):以wb的方式寫入文件。4)保存數(shù)據(jù)。保存形式多樣,可以保存到數(shù)據(jù)庫(MySQL、MongDB、Redis),也可以保存為文本文件。(3)請求與響應(yīng)請求與響應(yīng)示意圖如圖2-14所示。請求:用戶將自己的信息通過瀏覽器(SocketClient)發(fā)送給服務(wù)器(SocketServer)。圖214請求與響應(yīng)示意圖響應(yīng):服務(wù)器接收請求,分析用戶發(fā)來的請求信息,然后返回數(shù)據(jù)(返回的數(shù)據(jù)中可能包含其他鏈接,如圖片、JS、CSS等)。瀏覽器在接收響應(yīng)后,會解析其內(nèi)容并顯示給用戶,而爬蟲程序在模擬瀏覽器發(fā)送請求,并接收響應(yīng)后,要提取其中的有用數(shù)據(jù)。(4)請求內(nèi)容1)請求方式。常見的請求方式有:Get/Post。2)請求的URL。全球統(tǒng)一資源定位符(URL)用來定義互聯(lián)網(wǎng)上唯一的資源。例如一張圖片、一個文件、一段視頻都可以用URL唯一確定。3)請求頭。①User-Agent:請求頭中如果沒有User-Agent客戶端配置,服務(wù)端可能將你當作一個非法用戶。?Cookies:用來保存登錄信息。注意:一般做爬蟲都會加上請求頭。4)請求體。如果是Get方式,請求體沒有內(nèi)容(Get請求的請求體放在URL的后面參數(shù)中,直接能看到);如果是Post方式,請求體是FormatData。(5)響應(yīng)1)常見響應(yīng)狀態(tài)碼如下:200表示成功;301表示跳轉(zhuǎn);404表示文件不存在;403表示無權(quán)限訪問;502表示服務(wù)器錯誤。2)請求頭常見參數(shù)。①Set-Cookie:BDSVRTM=0;path=/:可能有多個,用來告訴瀏覽器,把Cookie保存下來。?Content-Location:服務(wù)端響應(yīng)頭中的位置信息返回瀏覽器之后,瀏覽器就會重新訪問另一個頁面。(6)總結(jié)1)總結(jié)爬蟲流程:爬取→解析→存儲。2)爬蟲所需工具。①請求庫:Requests、Selenium。?解析庫:正則表達式、Beautifulsoup,Pyquery。?存儲庫:文件、MySQL、MongoDB、Redis。3)爬蟲常用框架:Scrapy、Pyspider等。2.2數(shù)據(jù)存儲工具

1.數(shù)據(jù)文件(1)什么是數(shù)據(jù)文件數(shù)據(jù)文件是在計算機系統(tǒng)上使用的最常見類型的文件之一。本質(zhì)上,它可以是存儲數(shù)據(jù)的任何文件。它可以采取純文本文件的形式或二進制文件格式。數(shù)據(jù)文件類型的數(shù)量是巨大的,成千上萬的應(yīng)用軟件都在產(chǎn)生專有的文件格式。有許多方法來存儲數(shù)據(jù),無論是以結(jié)構(gòu)化還是非結(jié)構(gòu)化的格式。如HTML和XML的標記語言是按照指定的規(guī)則構(gòu)造的結(jié)構(gòu)化數(shù)據(jù),可以很容易地讀出或由程序操縱。而非結(jié)構(gòu)化數(shù)據(jù)文件不具有預(yù)先定義的數(shù)據(jù)模型,并且通常是以文本為主。非結(jié)構(gòu)化的文件類型包括元數(shù)據(jù)、文件、模擬數(shù)據(jù)、健康記錄和其他類型的多媒體內(nèi)容。。

(2)常見的三種文件存儲格式1) TXT文件存儲。優(yōu)點:簡單,兼容任何平臺。缺點:不利于檢索。對檢索和數(shù)據(jù)結(jié)構(gòu)要求不高,為了使用方便,可用TXT文本存儲。2) JSON文件存儲。JSON是JavaScriptObjectNotation的簡寫,是JavaScript對象標記,通過對象和數(shù)組的組合來表示數(shù)據(jù),構(gòu)造簡潔但結(jié)構(gòu)化程度非常高,是一種輕量級數(shù)據(jù)交換格式。在JavaScript語言中,一切都是對象。任何支持的類型都可以通過JSON來表示,如字符串、數(shù)字、對象、數(shù)組等,對象和數(shù)組是比較特殊且常用的兩種類型。3) CSV文件存儲。CSV是Comma-SeparatedValues的簡寫,中文名是逗號分隔值或字符分隔值,以純文本形式存儲表格數(shù)據(jù)。該文件是一個字符序列,可由任意數(shù)目的記錄組成,記錄間以某種換行符分隔。每條記錄由字段組成,字段間的分隔符常使用逗號或制表符。所有記錄都有完全相同的字段序列,相當于一個結(jié)構(gòu)化表的純文本形式。相比Excel文件更簡單,XLS文本是電子表格,包含了文本、數(shù)值、公式和格式等內(nèi)容,而CSV中不包含這些內(nèi)容,就是特定字符分隔的純文本,結(jié)構(gòu)簡單清晰。2. 數(shù)據(jù)庫(1) 定義數(shù)據(jù)庫是存放數(shù)據(jù)的倉庫。它的存儲空間很大,可以存放百萬條、千萬條甚至上億條數(shù)據(jù)。但是數(shù)據(jù)庫并不是隨意地將數(shù)據(jù)進行存放,而是有一定的規(guī)則的,否則查詢的效率會很低。當今世界是一個充滿數(shù)據(jù)的互聯(lián)網(wǎng)世界。即這個互聯(lián)網(wǎng)世界就是數(shù)據(jù)世界。數(shù)據(jù)的來源有很多,比如出行記錄、消費記錄、瀏覽的網(wǎng)頁、發(fā)送的消息等。除了文本類型的數(shù)據(jù),圖像、音樂、聲音也是數(shù)據(jù)。(2) 類型1) 關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫的存儲格式可以直觀地反映實體間的關(guān)系。關(guān)系型數(shù)據(jù)庫和常見的表格相似,關(guān)系型數(shù)據(jù)庫中表與表之間是有很多復(fù)雜的關(guān)聯(lián)關(guān)系的。常見的關(guān)系型數(shù)據(jù)庫有MySQL、SQLServer等。在輕量或者小型的應(yīng)用中,使用不同的關(guān)系型數(shù)據(jù)庫對系統(tǒng)的性能影響不大,但是在構(gòu)建大型應(yīng)用時,需要根據(jù)應(yīng)用的業(yè)務(wù)需求和性能需求,選擇合適的關(guān)系型數(shù)據(jù)庫。非關(guān)系型數(shù)據(jù)庫。

隨著近些年技術(shù)方向的不斷拓展,大量的非關(guān)系型數(shù)據(jù)庫NoSQL如MongoDB、Redis、Memcache出于簡化數(shù)據(jù)庫結(jié)構(gòu)、避免冗余、影響性能的表連接、摒棄復(fù)雜分布式的目的被設(shè)計。非關(guān)系型數(shù)據(jù)庫指的是分布式的、非關(guān)系型的、不保證遵循ACID原則的數(shù)據(jù)存儲系統(tǒng)。其技術(shù)與CAP理論、一致性哈希算法有密切關(guān)系。所謂CAP理論,簡單來說就是一個分布式系統(tǒng)不可能滿足可用性、一致性與分區(qū)容錯性這三個要求,一次性滿足兩種要求是該系統(tǒng)的上限。一致性哈希算法指的是非關(guān)系型數(shù)據(jù)庫在應(yīng)用過程中,為滿足工作需求而在通常情況下產(chǎn)生的一種數(shù)據(jù)算法,該算法能有效解決工作方面的諸多問題,但也存在弊端,即工作完成質(zhì)量會隨著節(jié)點的變化而產(chǎn)生波動,當節(jié)點過多時,相關(guān)工作結(jié)果就不那么準確。這一問題使整個系統(tǒng)的工作效率受到影響,導(dǎo)致整個數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)出現(xiàn)亂碼的概率與出錯率大大提高,甚至?xí)霈F(xiàn)數(shù)據(jù)節(jié)點的內(nèi)容遷移,產(chǎn)生錯誤的代碼信息。但盡管如此,非關(guān)系型數(shù)據(jù)庫技術(shù)還是具有非常明顯的應(yīng)用優(yōu)勢,如數(shù)據(jù)庫結(jié)構(gòu)相對簡單,在大數(shù)據(jù)量下的讀寫性能好;能滿足隨時存儲自定義數(shù)據(jù)格式的需求,非常適用于大數(shù)據(jù)處理工作。非關(guān)系型數(shù)據(jù)庫適合追求速度和可擴展性、業(yè)務(wù)多變的應(yīng)用場景。對于非結(jié)構(gòu)化數(shù)據(jù)的處理更合適,如文章、評論,這些數(shù)據(jù)通常只用于模糊處理,并不需要像結(jié)構(gòu)化數(shù)據(jù)一樣,進行精確查詢,而且這類數(shù)據(jù)往往是海量的,數(shù)據(jù)規(guī)模的增長往往也是不可預(yù)期的。非關(guān)系型數(shù)據(jù)庫的擴展能力幾乎是無限的,所以非關(guān)系型數(shù)據(jù)庫可以很好地滿足這一類數(shù)據(jù)的存儲。非關(guān)系型數(shù)據(jù)庫利用鍵值(Key-Value)可以獲取大量的非結(jié)構(gòu)化數(shù)據(jù),并且數(shù)據(jù)的獲取效率很高,但用它查詢結(jié)構(gòu)化數(shù)據(jù)效果就比較差。分布式數(shù)據(jù)庫。

所謂的分布式數(shù)據(jù)庫技術(shù),就是數(shù)據(jù)庫技術(shù)與分布式技術(shù)的一種結(jié)合。它具體指的是把那些在地理意義上分散開的各個數(shù)據(jù)庫節(jié)點和在計算機系統(tǒng)邏輯上屬于同一個系統(tǒng)的數(shù)據(jù)結(jié)合起來的一種數(shù)據(jù)庫技術(shù)。它既有著數(shù)據(jù)庫間的協(xié)調(diào)性,也有著數(shù)據(jù)的分布性。這個系統(tǒng)并不注重系統(tǒng)的集中控制,而是注重每個數(shù)據(jù)庫節(jié)點的自治性。此外,為了減輕程序員編寫程序的工作量以及系統(tǒng)出錯的可能性,一般完全不考慮數(shù)據(jù)的分布情況,這樣的結(jié)果就使得系統(tǒng)數(shù)據(jù)的分布情況一直保持著透明性。數(shù)據(jù)獨立性在分布式數(shù)據(jù)庫管理系統(tǒng)中是十分重要的。分布式數(shù)據(jù)庫管理系統(tǒng)還增加了分布式透明性。這個新概念的作用是讓數(shù)據(jù)進行轉(zhuǎn)移時使程序正確性不受影響,就像數(shù)據(jù)并沒有在編寫程序時被分布一樣。在分布式數(shù)據(jù)庫里,數(shù)據(jù)冗雜是一種被需要的特性,這點和一般的集中式數(shù)據(jù)庫系統(tǒng)不一樣。第一點是為了提高局部的應(yīng)用性而要在那些被需要的數(shù)據(jù)庫節(jié)點復(fù)制數(shù)據(jù)。第二點是因為如果某個數(shù)據(jù)庫節(jié)點出現(xiàn)系統(tǒng)錯誤,在修復(fù)好之前,可以通過操作其他的數(shù)據(jù)庫節(jié)點中復(fù)制好的數(shù)據(jù)來讓系統(tǒng)能夠繼續(xù)使用,提高系統(tǒng)的有效性。3. 大數(shù)據(jù)(1) 基本介紹。大數(shù)據(jù)通常指的是那些數(shù)量巨大和難于收集、處理、分析的數(shù)據(jù)集,也指那些在傳統(tǒng)基礎(chǔ)設(shè)施中長期保存的數(shù)據(jù)。這里的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業(yè)中IT基礎(chǔ)設(shè)施的規(guī)模。業(yè)內(nèi)對大數(shù)據(jù)應(yīng)用寄予了無限的期望。商業(yè)信息積累得越多,價值也越大,只不過我們需要一個方法把這些價值挖掘出來。隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長,它已經(jīng)衍生出自己獨特的架構(gòu),而且也直接推動了存儲、網(wǎng)絡(luò)以及計算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,就這個例子來說,我們很明顯地看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲基礎(chǔ)設(shè)施的發(fā)展。此外,這一變化對存儲廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個機會。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設(shè)計已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲廠商已經(jīng)意識到這一點,他們開始修改基于塊和文件的存儲系統(tǒng)的架構(gòu)設(shè)計以適應(yīng)這些新的要求。在這里,我們會討論那些與大數(shù)據(jù)存儲基礎(chǔ)設(shè)施相關(guān)的屬性,看看它們?nèi)绾斡哟髷?shù)據(jù)的挑戰(zhàn)。(2) 大數(shù)據(jù)存儲方式1) 分布式系統(tǒng)。分布式系統(tǒng)包含多個自主的處理單元,通過計算機網(wǎng)絡(luò)互聯(lián)來協(xié)作完成分配的任務(wù),其分而治之的策略能夠更好地處理大規(guī)模數(shù)據(jù)分析問題。分布式系統(tǒng)主要包括以下兩類:? 分布式文件系統(tǒng):存儲管理需要多種技術(shù)的協(xié)同工作,其中文件系統(tǒng)為其提供最底層存儲能力的支持。分布式文件系統(tǒng)HDFS是一個高度容錯性系統(tǒng),被設(shè)計成適用于批量處理,能夠提供高吞吐量的數(shù)據(jù)訪問。? 分布式鍵值系統(tǒng):用于存儲關(guān)系簡單的半結(jié)構(gòu)化數(shù)據(jù)。典型的分布式鍵值系統(tǒng)有AmazonDynamo,其存儲和管理的是對象而不是數(shù)據(jù)塊。2) 非關(guān)系型數(shù)據(jù)庫。關(guān)系型數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求,主要表現(xiàn)為:無法滿足海量數(shù)據(jù)的管理需求,無法滿足數(shù)據(jù)高并發(fā)的需求,可擴展性和可用性較差。非關(guān)系型數(shù)據(jù)庫的優(yōu)勢:可以支持超大規(guī)模數(shù)據(jù)存儲,靈活的數(shù)據(jù)模型可以很好地支持Web2.0應(yīng)用,具有強大的橫向擴展能力等。典型的非關(guān)系型數(shù)據(jù)庫包括:鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖形數(shù)據(jù)庫。3) 云數(shù)據(jù)庫。云數(shù)據(jù)庫是基于云計算技術(shù)發(fā)展的一種共享基礎(chǔ)架構(gòu)的方法,是被部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫。云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù),而只是以服務(wù)的方式提供數(shù)據(jù)庫功能。云數(shù)據(jù)庫所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫所使用的關(guān)系模型(微軟的SQLAzure云數(shù)據(jù)庫采用了關(guān)系模型)。同一個公司也可能提供采用不同數(shù)據(jù)模型的多種云數(shù)據(jù)庫服務(wù)。2.3數(shù)據(jù)處理工具數(shù)據(jù)處理是指根據(jù)數(shù)據(jù)分析目的,將收集到的數(shù)據(jù),用適當?shù)奶幚矸椒ㄟM行加工、整理,形成適合數(shù)據(jù)分析的樣式。它是數(shù)據(jù)分析前必不可少的工作,并且在整個數(shù)據(jù)分析工作量中占據(jù)了很大的比例。數(shù)據(jù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)抽取、數(shù)據(jù)合并、數(shù)據(jù)計算、數(shù)據(jù)分組等操作。數(shù)據(jù)處理主要運用的工具有Excel、TableauPrep和Python。1. Excel案例:在對數(shù)據(jù)進行分析前,經(jīng)常需要對數(shù)據(jù)進行處理。如圖2-15所示,現(xiàn)需要將手機號碼中間四位數(shù)字單獨提取出來,所以需要運用Excel函數(shù)。圖2-15數(shù)據(jù)抽取步驟一:打開Excel文件,找到該工作表,選中D2單元格,輸入函數(shù)“=MID(C2,4,4)”,如圖2-16所示。圖

2

16

輸入函數(shù)步驟二:將鼠標指針放在D2單元格右下角,出現(xiàn)十字光標后下拉,即可得出所有號碼的中間四位數(shù)字,如圖2-17所示。圖

2-17

結(jié)果呈現(xiàn)2. TableauPrep(1) 什么是TableauPrep。2018年4月,Tableau公司推出全新的數(shù)據(jù)準備產(chǎn)品———TableauPrep,旨在幫助人們以快速可靠的方式對數(shù)據(jù)進行合并、組織和清理,進一步縮短從數(shù)據(jù)獲取信息所需的時間。簡而言之,TableauPrep是一款簡單易用的數(shù)據(jù)處理工具(部分ETL工作)。之所以使用TableauPrep,是因為我們在使用BI工具進行數(shù)據(jù)可視化時,數(shù)據(jù)常常不具有適合分析的形制(數(shù)據(jù)模型),很難應(yīng)對復(fù)雜的數(shù)據(jù)準備工作。因此,我們需要一種更方便的工具來搭建我們需要的數(shù)據(jù)模型。(2) 下載TableauPrep。TableauPrep官方鏈接地址:https://www.tableau.com/products/prep。目前TableauPrep提供30天的試用,現(xiàn)有的TableauDesktop客戶可在2020年之前免費使用TableauPrep。同時支持Windows及Mac系統(tǒng)。TableauDesktop的Key(密鑰)無法直接激活TableauPrep,根據(jù)官方介紹,需要進入Tableau客戶端,使用Administrator賬戶登錄,即可以看到已經(jīng)購買的DesktopKey,以及1個TableauPrep的Key。此Key可以激活與DesktopKey關(guān)聯(lián)電腦上的TableauPrep。(3) TableauPrep數(shù)據(jù)連接。TableauPrep支持連接到常用類型的數(shù)據(jù),以及Tableau的數(shù)據(jù)提取(.tde或.hyper),并且從版本2019.3.1開始還支持發(fā)布的數(shù)據(jù)源。連接類型如圖2-18所示。3. Python下面給出一個手機號碼,為了保護客戶隱私,需要通過Python中的函數(shù)將中間四位號碼用“?”代替。具體的圖218TableauPrep數(shù)據(jù)連接類型Python代碼如圖219所示。圖219Python代碼實現(xiàn)2.4數(shù)據(jù)分析工具數(shù)據(jù)分析工具有很多。一般來說,一個優(yōu)秀的數(shù)據(jù)分析師都有很多的知識儲備,并且能夠熟練地使用數(shù)據(jù)分析工具。那么數(shù)據(jù)分析工具都有哪些呢?一般來說,Excel、Python、SPSS比較常見。下面分別為大家介紹這些工具。1.Excel在眾多數(shù)據(jù)分析工具中,Excel是最常用、最容易上手的分析工具。Excel數(shù)據(jù)分析功能十分強大,不僅提供簡單的數(shù)據(jù)處理功能,還有專業(yè)的數(shù)據(jù)分析工具庫,包括相關(guān)系數(shù)分析、描述統(tǒng)計分析等。下面列舉一個案例來講述Excel的數(shù)據(jù)分析功能。案例:某公司在研究公司的新媒體賬號每天發(fā)布的內(nèi)容對閱讀量、轉(zhuǎn)發(fā)量、當天漲粉量的影響時,對數(shù)據(jù)進行了統(tǒng)計,部分數(shù)據(jù)如圖2-20所示?,F(xiàn)在需要將表格中的“標題類型”和“內(nèi)容類型”信息轉(zhuǎn)換為數(shù)據(jù)。規(guī)定用數(shù)字代碼表示“噱頭型”標題,用數(shù)字代碼“2”表示“干貨型”標題,依此類推。用代碼“1”來表示“獵奇”內(nèi)容,依此類推。轉(zhuǎn)換后的表格結(jié)果如圖221所示。圖

2-20

部分數(shù)據(jù)統(tǒng)計圖

2-21

轉(zhuǎn)化后的數(shù)據(jù)步驟一:打開Excel表,選擇“數(shù)據(jù)”→“數(shù)據(jù)分析”命令,打開“數(shù)據(jù)分析”對話框,選擇“相關(guān)系數(shù)”選項,如圖2-22所示。圖

2-22

數(shù)據(jù)分析”

對話框步驟二:在“相關(guān)系數(shù)”對話框中設(shè)置區(qū)域。設(shè)置“輸入?yún)^(qū)域”為所有數(shù)據(jù)表區(qū)域。選中“逐列”單選按鈕和“標志位于第一行”復(fù)選框。設(shè)置“輸出區(qū)域”為一個空白的單元格,單擊“確定”按鈕,如圖2-23所示。圖

2-23

相關(guān)系數(shù)”

對話框步驟三:查看分析結(jié)果。在分析結(jié)果中,正數(shù)表示正相關(guān),負數(shù)表示負相關(guān)。正數(shù)越大、負數(shù)越小,就說明相關(guān)性越大。如圖224所示,“插圖數(shù)量”和“轉(zhuǎn)發(fā)量”的相關(guān)系數(shù)為0.59(保留兩位小數(shù)),說明兩者呈正相關(guān)關(guān)系,即插圖數(shù)量越多,轉(zhuǎn)發(fā)量越大。其余變量間系數(shù)較小,不存在相關(guān)關(guān)系。圖224結(jié)果呈現(xiàn)2. Python采用Python進行數(shù)據(jù)分析需要掌握一系列庫的使用方法,包括NumPy(矩陣運算庫)、SciPy(統(tǒng)計運算庫)、Matplotlib(繪圖庫)、Pandas(數(shù)據(jù)集操作)、SymPy(數(shù)值運算庫)等庫,在Python中進行數(shù)據(jù)分析時,這些庫有廣泛的應(yīng)用。案例:我們根據(jù)工作經(jīng)驗、薪資水平的歷史數(shù)據(jù),運用Python相關(guān)知識建立線性回歸模型,然后根據(jù)給出的薪資水平來預(yù)測未來的薪資。數(shù)據(jù)源如圖2-25所示。圖225源數(shù)據(jù)步驟一:導(dǎo)入相關(guān)庫,源碼如圖226所示。步驟二:讀取源數(shù)據(jù),源碼如圖2-27所示。圖

2-26

導(dǎo)入相關(guān)庫源碼圖

2-27

讀取源數(shù)據(jù)源碼步驟三:建立線性回歸模型,源碼如圖228所示。步驟四:求解參數(shù)及截距,結(jié)果如圖229所示。3. SPSSSPSS是世界上最早的統(tǒng)計分析軟件,由美國斯坦福大學(xué)的三位研究生于1968年研發(fā)成功,同時成立了SPSS公司,并于1975年成立法人組織,在芝加哥組建了SPSS總部。2009年7月28日,IBM公司宣布將用12億美元現(xiàn)金收購統(tǒng)計分析軟件提供商SPSS公司。如今SPSS的最新版本為SPSS26.0,而且更名為IBMSPSSStatistics。迄今,SPSS公司已有40余年的成長歷史。SPSS是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計軟件,它最突出的特點是操作界面極為友好,輸出結(jié)果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來,使用Windows窗口的方式展示各種管理和分析數(shù)據(jù)的功能,用對話框展示各種功能選擇項。用戶只要掌握一定的Windows操作技能,精通統(tǒng)計分析原理,就可以使用該軟件為特定的科研工作服務(wù)。SPSS采用類似Excel表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便地從其他數(shù)據(jù)庫中讀入數(shù)據(jù)。其統(tǒng)計過程包括常用的、較為成熟的統(tǒng)計過程,完全可以滿足非統(tǒng)計專業(yè)人士的工作需要。輸出結(jié)果十分美觀,存儲格式是專用的SPO格式,可以轉(zhuǎn)存為HTML格式和文本格式。對于熟悉老版本編程運行方式的用戶,SPSS還特別設(shè)計了語法生成窗口,用戶只需在菜單中選好各個選項,然后單擊“粘貼”按鈕就可以自動生成標準的SPSS程序。極大地方便了中、高級用戶。案例:圖2 30中的數(shù)據(jù)表達的是某公司月份的商品銷售情況,第一列是月份,第二列是當月銷售商品種類數(shù),第三列是當月的商品銷售量。我們現(xiàn)在需要通過回歸分析來了解商品上架種類和商品銷售量之間是否有關(guān)系,如果有的話又是怎樣的一種關(guān)系,并且是否可以通過目前的數(shù)據(jù)來預(yù)測12月份的商品銷售量情況。圖230源數(shù)據(jù)步驟一:如圖2-31所示,我們需要從“分析”菜單中選擇“回歸”→“線性”命令(回歸的模型選擇有很多種,本案例中我們選擇線性回歸)。圖

2

31

選擇線性回歸步驟二:在彈出的“線性回歸”對話框中,我們把銷售數(shù)量設(shè)為因變量,自變量為商品種類,如圖2-32所示圖

2

32

線性回歸”

對話框中參數(shù)設(shè)置步驟三:單擊右側(cè)的Statistics,在彈出的“線性回歸:統(tǒng)計”對話框中選擇Durbin-Watson復(fù)選框,單擊“繼續(xù)”按鈕,返回“線性回歸”對話框;單擊“繪圖”按鈕,選擇輸出殘差“直方圖”與“正態(tài)概率圖”,如圖2-33和圖2-34所示。其他的選項我們暫時接受系統(tǒng)默認設(shè)置,不做更改。圖

2-33

參數(shù)設(shè)置圖

2-34

參數(shù)設(shè)置步驟四:單擊“繼續(xù)”按鈕返回“線性回歸”對話框,單擊“確定”按鈕,結(jié)果如圖235所示。圖2

35

結(jié)果呈現(xiàn)從圖2-35中我們可以看出,不管是R平方還是調(diào)整后的R平方都在90%以上,說明本次回歸模型的擬合效果是很好的。從圖2-35我們可以看出,方差分析的顯著性為0.00<0.05,說明在本次分析中商品種類和銷售數(shù)量之間存在顯著的線性關(guān)系。從圖2-35中我們可以看出,整個回歸分析的結(jié)果是很好的,t檢驗里的顯著性水平0.00<0.05,說明本次回歸方程的系數(shù)是顯著的,具有統(tǒng)計學(xué)意義。本次回歸分析的回歸方程為:

Y=399.954+7.503X到這里不知道大家是不是也認為整個回歸分析就做完了。其實,我們還有重要的一步?jīng)]有驗證,就是D-W檢驗。在第一個模型匯總圖里,我們能看到本次分析的D-W值是1.475,可以通過查詢DurbinWatson檢驗表,也可以看輸出的圖來判斷是否數(shù)據(jù)存在自相關(guān)等問題。圖2-36和圖2-37就是我們輸出的殘差圖,從圖中可以看出殘差的分布沒有呈現(xiàn)出明顯的規(guī)律性,說明此題的數(shù)據(jù)不存在自相關(guān)等情況,本次的回歸模型不用進行其他操作,可以直接使用。圖2-36

直方圖圖2-37P-P

圖最后,我們既然得出了回歸方程,就可以對12月份的商品銷售情況做出相應(yīng)的預(yù)測,直接往回歸方程里面代數(shù)就可以計算出來了。到這里,我們本次SPSSStatistics的回歸分析案例就全部做完了,舉這個比較簡單的例子,要是讓大家看看如何使用SPSSStatistics。在工作中,我們需要的回歸模型可能會比這個復(fù)雜,但是原理都是一樣的,可以參考此案例。2.5數(shù)據(jù)可視化工具數(shù)據(jù)可視化是數(shù)據(jù)分析和機器學(xué)習(xí)的重要環(huán)節(jié)。數(shù)據(jù)可視化同時還廣泛存在于各種商業(yè)、政務(wù)、教育等領(lǐng)域的業(yè)務(wù)表述之中。因為“圖”才是喜聞樂見、通俗易懂的,也是最直觀的。不僅如此,數(shù)據(jù)可視化還是獨立的業(yè)務(wù),在現(xiàn)代社會中有各種引人注目的操作,比如將抽象的東西“可視化”“直觀化”等。本節(jié)主要向讀者介紹了數(shù)據(jù)可視化中常用工具的使用方法,并且通過多個實戰(zhàn)項目案例,讓讀者更深入地理解可視化的各種方法和技能。1. Excel數(shù)據(jù)可視化軟件很多,例如R、Python、第三方在線工具等,但是絕大部分對于初學(xué)者非常不友好,需要花大量時間去學(xué)習(xí)、研究。這里我強烈推薦Excel,因為其學(xué)習(xí)起來簡單、兼容性極強。案例:圖2-38所示為某公司各銷售區(qū)域的銷售金額,現(xiàn)在需要體現(xiàn)出目標的完成情況,可以用Excel中的數(shù)據(jù)條來實現(xiàn)。圖238效果圖展示2. TableauTableau是大數(shù)據(jù)可視化的市場領(lǐng)導(dǎo)者之一,在為大數(shù)據(jù)操作、深度學(xué)習(xí)算法和多種類型的AI應(yīng)用程序提供交互式數(shù)據(jù)可視化方面尤為高效。Tableau可以與AmazonAWS,MySQL、Hadoop、Teradata和SAP協(xié)作,成為一個能夠創(chuàng)建詳細圖形和展示直觀數(shù)據(jù)的多功能工具。這樣高級管理人員和中間鏈管理人員能夠基于包含大量信息且容易讀懂的Tableau圖形做出基礎(chǔ)決策。案例:根據(jù)“2019年各省市售電量明細表.xlsx”,制作各個地區(qū)銷售明細柱形圖。如圖2-39所示。圖239效果圖3. PythonPython有很多附加庫可以用來制作靜態(tài)或動態(tài)的可視化文件,但是我們將主要關(guān)注Matplotlib和以它為基礎(chǔ)的庫。Matplotlib是一個用于生成出版級質(zhì)量圖表(通常是二維的)的桌面繪圖包。該項目由約翰·亨特(JohnHunter)于2002年發(fā)起,目的在于在Python環(huán)境下進行MATLAB風(fēng)格的繪圖。Matplotlib和IPython社區(qū)合作簡化了IPythonshell(目前是Jupyter筆記本)的交互式繪圖。Matplotlib支持所有操作系統(tǒng)上的各種GUI后端,還可以將可視化文件導(dǎo)出為所有常見的矢量和光柵圖形格式(PDF、SVG、JPG、PNG、BMP、GIF等)。隨著時間的推移,Matplotlib已經(jīng)產(chǎn)生了一些數(shù)據(jù)可視化的附加工具包,可使用Matplotlib進行底層繪圖。案例:現(xiàn)需要在JupyterNotebook中繪制簡單的折線圖,具體代碼及效果如圖240所示。圖2-40源碼及效果圖呈現(xiàn)2.2報告撰寫工具數(shù)據(jù)分析的最后一步就是撰寫分析報告。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論