版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
項目三
數(shù)據(jù)存儲與管理項目簡介大在大數(shù)據(jù)時代的背景下,海量的數(shù)據(jù)整理成為了各個企業(yè)急需解決的問題。對于企業(yè)來說,數(shù)據(jù)對于戰(zhàn)略和業(yè)務(wù)連續(xù)性都十分重要,它是業(yè)務(wù)文檔、計劃、用戶數(shù)據(jù)和財務(wù)信息的積累,是任何業(yè)務(wù)基礎(chǔ)設(shè)施的核心組件。為充分發(fā)揮數(shù)據(jù)應(yīng)用價值,有效存儲已經(jīng)成為人們關(guān)注的熱點。為了有效應(yīng)對現(xiàn)實世界中復(fù)雜多樣性的大數(shù)據(jù)處理需求,需要針對不同的大數(shù)據(jù)應(yīng)用特征,從多個角度、多個層次對大數(shù)據(jù)進行存儲和管理。管理大數(shù)據(jù)的關(guān)鍵是制定戰(zhàn)略,以高自動化、高可靠、高成本效益的方式歸檔數(shù)據(jù)。本項目將帶領(lǐng)你認識數(shù)據(jù)存儲、數(shù)據(jù)存儲的度量、數(shù)據(jù)存儲介質(zhì)、數(shù)據(jù)存儲方式;掌握傳統(tǒng)數(shù)據(jù)存儲管理技術(shù);了解大數(shù)據(jù)存儲與傳統(tǒng)數(shù)據(jù)存儲的不同點,熟悉大數(shù)據(jù)時代的數(shù)據(jù)存儲管理的新一代技術(shù)。學習目標知識目標1.理解數(shù)據(jù)存儲的基本概念;2.掌握數(shù)據(jù)存儲度量單位的換算;3.熟悉常用數(shù)據(jù)存儲介質(zhì)和數(shù)據(jù)存儲方式;4.熟悉傳統(tǒng)數(shù)據(jù)存儲管理技術(shù),重點掌握文件系統(tǒng)和關(guān)系數(shù)據(jù)庫應(yīng)用;5.理解和熟悉大數(shù)據(jù)時代存儲管理相關(guān)技術(shù)。能力目標1.能夠進行數(shù)據(jù)存儲度量單位的換算;2.能夠根據(jù)數(shù)據(jù)存儲要求和數(shù)據(jù)特點選用合適存儲介質(zhì)和數(shù)據(jù)存儲方法;3.能分辨關(guān)系數(shù)據(jù)庫的各種核心元素;4.能使用百度網(wǎng)盤、云存儲技術(shù)等存儲數(shù)據(jù)。素質(zhì)目標1.養(yǎng)成用良好的數(shù)據(jù)存儲與管理的習慣;2.養(yǎng)成對事物分析客觀、敏感的職業(yè)思維方式。思政目標通過數(shù)據(jù)存儲知識學習,透過數(shù)據(jù)存儲器發(fā)展歷程看人類文明,理解人類的努力和堅持,培養(yǎng)學生的社會責任感;通過傳統(tǒng)和大數(shù)據(jù)存儲管理技術(shù)的學習,以及我國華為等公司數(shù)據(jù)存儲與智能管理的技術(shù)了解,培養(yǎng)學生的家國情懷。思維導(dǎo)圖任務(wù)一認識數(shù)據(jù)存儲任務(wù)清單工作任務(wù)認識數(shù)據(jù)存儲教學模式任務(wù)驅(qū)動建議學時2課時教學地點一體化教室任務(wù)描述自人類誕生以來,數(shù)據(jù)的存儲就一直伴隨左右。從最早的穿孔卡,應(yīng)用于紡織行業(yè)圖案的存儲,到后來用于調(diào)查人口時的信息存儲。存儲介質(zhì)在歷史的長河中也是不斷的更迭演變。唱片、磁帶、碟片的誕生,音樂和影視行業(yè)進入了大家的視野,風靡一時。半導(dǎo)體、硬盤、閃存等的出現(xiàn),推進了信息時代的發(fā)展進步。面對大數(shù)據(jù)的應(yīng)用,數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析等都離不開數(shù)據(jù)存儲。那么什么是數(shù)據(jù)存儲?數(shù)據(jù)存儲是如何度量的?有哪些數(shù)據(jù)存儲介質(zhì)?數(shù)據(jù)存儲的方式又有哪些呢?對于數(shù)據(jù)分析員的小王來說必須認識數(shù)據(jù)存儲相關(guān)內(nèi)容。任務(wù)目標理解數(shù)據(jù)存儲概念;掌握數(shù)據(jù)存儲度量單位;掌握常用存儲介質(zhì)的基本原理,優(yōu)、缺點;掌握三種存儲方式基本原理以及它們各自優(yōu)、缺點;能識別數(shù)據(jù)存儲量的大小,以及進行各度量單位的換算;能根據(jù)具體存儲要求選擇合適的存儲介質(zhì);能根據(jù)實際需求選用合適的存儲模式;養(yǎng)成安全、經(jīng)濟、環(huán)保的數(shù)據(jù)存儲職業(yè)素養(yǎng)。關(guān)鍵詞數(shù)據(jù)存儲、存儲度量、存儲介質(zhì)、存儲模式知識必備一、什么是數(shù)據(jù)存儲數(shù)據(jù)存儲(DataStorage)就是將數(shù)據(jù)以某種格式記錄在計算機內(nèi)部或外部存儲介質(zhì)上。數(shù)據(jù)存儲對象包括數(shù)據(jù)流在加工過程中產(chǎn)生的臨時文件或加工過程中需要查找的信息。數(shù)據(jù)流反映了系統(tǒng)中流動的數(shù)據(jù),表現(xiàn)出動態(tài)數(shù)據(jù)的特征;數(shù)據(jù)存儲反映系統(tǒng)中靜止的數(shù)據(jù),表現(xiàn)出靜態(tài)數(shù)據(jù)的特征。通過使用數(shù)據(jù)存儲,用戶可在設(shè)備上保存數(shù)據(jù)、共享數(shù)據(jù)。信息時代今天,人們每天都在和電腦、手機、平板機打交道。我們的工作和生活,已經(jīng)完全離不開視頻、音樂、圖片、文本、表格這樣的數(shù)據(jù)文件,企業(yè)和用戶都需要數(shù)據(jù)存儲。知識必備二、數(shù)據(jù)存儲的度量理解了什么叫數(shù)據(jù)存儲,那么數(shù)據(jù)存儲的大小是怎么來度量的呢?計算機存儲信息的最小單位被稱為位(bit),音譯為比特。二進制的一個“0”或一個“1”叫1位。這類同于一個電源開關(guān),令電源開關(guān)處于斷開狀態(tài)為“0”,令電源開關(guān)處于閉合狀態(tài)為“1”。計算機存儲容量和傳輸容量的基本單位是字節(jié)(Byte)。1Byte=8bit。一個標準英文字母、數(shù)字占一個字節(jié),一個標準漢字占兩個字節(jié)。如圖所示。
知識必備二、數(shù)據(jù)存儲的度量下表是各存儲單位得換算關(guān)系
知識必備三、數(shù)據(jù)存儲的介質(zhì)1、機械硬盤存儲介質(zhì)是數(shù)據(jù)存儲的載體,是數(shù)據(jù)存儲的基礎(chǔ)。人類歷史的發(fā)展過程中,存儲介質(zhì)也在不斷的更新?lián)Q代,透過數(shù)據(jù)存儲器的發(fā)展可以看到人類文明發(fā)展歷程。早期的存儲介質(zhì)有紙帶、卡片、磁帶等,目前常見的數(shù)據(jù)存儲介質(zhì)有機械硬盤、固態(tài)硬盤、可記錄光盤、U盤、閃存卡等。特點:便宜、性價比高,但讀/寫速度較慢、防震性差。數(shù)據(jù)用什么來存儲呢?知識必備三、數(shù)據(jù)存儲的介質(zhì)2、固態(tài)硬盤特點:讀/寫速度較快、穩(wěn)定性高,但價格較高、有寫入次數(shù)限制。知識必備三、數(shù)據(jù)存儲的介質(zhì)3、可記錄光盤特點:有CD/DVD多種格式,R是一次刻錄、可多次讀取的光盤,RW是可以多次刻錄、反復(fù)擦寫的光盤。價格便宜,但讀寫需要專用驅(qū)動器知識必備三、數(shù)據(jù)存儲的介質(zhì)4、U盤特點:使用極為方便,無須外接電源,支持即插即用和熱插拔,只要用戶計算機的主板上有USB接口,就可以使用知識必備三、數(shù)據(jù)存儲的介質(zhì)5、閃存卡特點:小巧,一般用于數(shù)碼類的產(chǎn)品中,如用于手機、數(shù)碼照相機、數(shù)碼攝像機、數(shù)碼錄音筆等。知識必備三、數(shù)據(jù)存儲的介質(zhì)6、存儲介質(zhì)選用原則(1)耐久性:耐久性能高的存儲介質(zhì)不容易損壞,降低了數(shù)據(jù)損失的風險。因而存儲數(shù)據(jù)應(yīng)選用對環(huán)境要求低、不容易損傷、耐久性能高的介質(zhì)。(2)容量恰當:介質(zhì)的高容量不僅有利于存儲空間的減少,還便于管理,但會使存儲的成本增加。對大容量數(shù)據(jù),如果存儲介質(zhì)容量低,將不利于存儲數(shù)據(jù)的完整。介質(zhì)的存儲容量最好與所管理的數(shù)據(jù)量大小相匹配。(3)低費用:介質(zhì)的價格低,可以減少存儲管理與系統(tǒng)運行的費用。(4)廣泛的可接受性:為減少IT業(yè)界對存儲介質(zhì)不支持的風險,我們應(yīng)當選用具有廣泛可使用性的存儲介質(zhì),特別應(yīng)注意選用能滿足工業(yè)標準的存儲介質(zhì)。這么多得存儲介質(zhì),我們怎么選用呢?知識必備四、數(shù)據(jù)存儲的模式目前,數(shù)據(jù)有以下3種常見的存儲模式:附加直接模式(Direct-AttachedStorage,DAS)、附加網(wǎng)絡(luò)模式(Network-AttachedStorage,NAS)、存儲區(qū)域網(wǎng)絡(luò)模式(StorageAreaNetwork,SAN),它們被廣泛應(yīng)用于企業(yè)存儲設(shè)備中,如圖所示。數(shù)據(jù)有哪些存儲模式呢?知識必備四、數(shù)據(jù)存儲的模式1、DAS直接附加存儲特點:配置簡單,僅僅是一個外接的SCSI接口;使用方法與使用本機硬盤并無太大差別;擴展性差,可管理性差。適合中小型企業(yè)知識必備四、數(shù)據(jù)存儲的模式2、NAS附加網(wǎng)絡(luò)模式特點:即插即用,容易部署,把NAS設(shè)備接入以太網(wǎng)就可以使用。數(shù)據(jù)存儲時占用帶寬,且網(wǎng)絡(luò)傳輸時易產(chǎn)生數(shù)據(jù)泄露。通常部署于部門級應(yīng)用知識必備四、數(shù)據(jù)存儲的模式3、SAN存儲區(qū)域網(wǎng)絡(luò)模式特點:SAN采用高速的傳輸媒介,存取速度很快,且擴展性強,磁盤使用率高。價格貴,不易被小型企業(yè)所接受,通常用于大型企業(yè)。知識必備四、數(shù)據(jù)存儲的模式4、三種存儲模式比較DAS多采用SCSI或SAS接口,由于部署節(jié)點的單一性及較高的性能,適用于單一節(jié)點的企業(yè)級應(yīng)用,或者地理位置比較分散的服務(wù)器使用。DAS由于部署的局限性目前使用量越來越少。NAS利用現(xiàn)有以太網(wǎng)網(wǎng)絡(luò),因此部署靈活,部署的成本非常低,基于TCP/IP協(xié)議的特性可以提供豐富的網(wǎng)絡(luò)服務(wù),基于文件的形式提供數(shù)據(jù)的存儲及備份,但是TCP/IP協(xié)議決定了數(shù)據(jù)傳輸?shù)臄?shù)據(jù)打包及解包會占用系統(tǒng)資源,另外傳輸速率受限于以太網(wǎng)的速率,因此不適用于企業(yè)級應(yīng)用,通常部署于部門級應(yīng)用。SAN存儲使用光纖網(wǎng)絡(luò)進行傳輸,并且獨立于應(yīng)用網(wǎng)絡(luò),可以提供非常高的帶寬,數(shù)據(jù)的傳輸基于塊協(xié)議,無需對數(shù)據(jù)進行處理,直接進行傳送,因此性能最好,另外光纖線路可以提供遠距離的高帶寬鏈路,可以實現(xiàn)數(shù)據(jù)中心的異地災(zāi)備應(yīng)用,但是部署成本較高。因此SAN存儲多應(yīng)用于企業(yè)級的存儲部署中。學習感悟我們生活在數(shù)字化的信息時代,“存儲”作為保存數(shù)字信息的手段,是信息技術(shù)的根基。我們也生活在一個幸運的時代,存儲技術(shù)已經(jīng)得到了極大的發(fā)展,更強的存儲介質(zhì)、更優(yōu)的存儲模式不斷涌現(xiàn),透過數(shù)據(jù)存儲器的發(fā)展歷程可以看到人類不斷創(chuàng)新發(fā)展拼搏精神。面對具體存儲介質(zhì)、存儲模式選擇,關(guān)鍵應(yīng)看數(shù)據(jù)存儲的需求、應(yīng)用的場景都是些什么:從經(jīng)濟性上講要低費用、投入少、存儲容量最好與所管理的數(shù)據(jù)量大小相匹配;從安全性上來講要做到確保數(shù)據(jù)安全、不容易損傷、耐久性能高;從效率上來講應(yīng)支持易用、易擴充、速度快;從應(yīng)用場景上來講應(yīng)厘清個人級、部門級、企業(yè)級應(yīng)用需求。任務(wù)實訓1.掃教材上對應(yīng)二維碼針對必備知識進行在線測試。2.當前主流的硬盤類型有傳統(tǒng)機械硬盤和SSD固態(tài)硬盤,請總結(jié)兩者的優(yōu)缺點。3.列表比較DAS、NAS、SAN三種數(shù)據(jù)存儲方式,并分析它們各自適合在什么樣的應(yīng)用場景中使用?任務(wù)評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10
遵守課堂紀律。(5分)學習過程
能說出本任務(wù)的學習目標,上課積極發(fā)言,積極回答問題(5分);20
能夠回答數(shù)據(jù)采集流程存儲的基本單位;(5分)能夠回答數(shù)據(jù)存儲的常用介質(zhì);(5分)能夠理解和回答數(shù)據(jù)存儲的模式。(5分)學習結(jié)果“在線測試”選擇題和判斷題考評;(3分×10=30分)70
比較DAS、NAS、SAN三種數(shù)據(jù)存儲方式的考評;(20分)作傳統(tǒng)機械硬盤和SSD固態(tài)硬盤比較的考評。(20分)合
計100
所占比例100%30%30%40%綜合評分
任務(wù)二傳統(tǒng)數(shù)據(jù)存儲管理任務(wù)清單工作任務(wù)傳統(tǒng)數(shù)據(jù)存儲管理教學模式任務(wù)驅(qū)動建議學時2課時教學地點一體化教室任務(wù)描述數(shù)據(jù)存儲一方面要求我們有良好的物理硬件支持,從而保證數(shù)據(jù)被安全接納;另一方面我們也需要為采集和生成的數(shù)據(jù)建立方便訪問的服務(wù),即建立索引,從而保證數(shù)據(jù)可以被快速準確地訪問,這就涉及到數(shù)據(jù)的高效管理。數(shù)據(jù)管理技術(shù)是指對數(shù)據(jù)進行分類、編碼、存儲、索引和查詢。那么,傳統(tǒng)的數(shù)據(jù)是怎么進行存儲管理的,用到了哪些管理技術(shù)呢?任務(wù)目標掌握計算機中數(shù)據(jù)組織的主要形式;掌握文件系統(tǒng)存儲的基本原理以及它的缺點;掌握關(guān)系數(shù)據(jù)庫的基本概念;熟悉數(shù)據(jù)倉庫的基本概念和基本特點;掌握并行數(shù)據(jù)庫的基本特點;能識別關(guān)系數(shù)據(jù)庫的核心元素;能熟悉關(guān)系數(shù)據(jù)庫基本的SQL語句;具備高效的數(shù)據(jù)存儲管理職業(yè)素養(yǎng)。關(guān)鍵詞文件系統(tǒng)、關(guān)系數(shù)據(jù)庫、SQL、數(shù)據(jù)倉庫、并行數(shù)據(jù)庫計算機系統(tǒng)中數(shù)據(jù)的組織形式主要有文件和數(shù)據(jù)庫兩種。文件和數(shù)據(jù)庫在用于數(shù)據(jù)的存儲與管理時,會根據(jù)數(shù)據(jù)規(guī)模、數(shù)據(jù)存取效率等方面,采用不同的存儲與管理技術(shù),如:文件系統(tǒng)、分布式文件系統(tǒng)、關(guān)系數(shù)據(jù)庫、非關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、并行數(shù)據(jù)庫、云數(shù)據(jù)庫等等。在大數(shù)據(jù)時代來臨前,傳統(tǒng)的數(shù)據(jù)存儲與管理技術(shù)主要包括文件系統(tǒng)、關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、并行數(shù)據(jù)庫。知識必備知識必備一、文件系統(tǒng)計算機系統(tǒng)中很多的數(shù)據(jù)都是以文件形式存在的,例如我們平時在計算機上使用的Word文件、PPT文件、文本文件、音頻文件、視頻文件等。知識必備一、文件系統(tǒng)在計算機系統(tǒng)中,文件是以文件系統(tǒng)來進行管理的,而在文件系統(tǒng)中,數(shù)據(jù)按其內(nèi)容、結(jié)構(gòu)和用途組成若干命名的文件。文件系統(tǒng)是操作系統(tǒng)用于明確存儲設(shè)備(常見的是磁盤,也有基于NANDFlash的固態(tài)硬盤)或分區(qū)上的文件的方法和數(shù)據(jù)結(jié)構(gòu),即在存儲設(shè)備上組織文件的方法。操作系統(tǒng)中負責管理和存儲文件信息的軟件機構(gòu)稱為文件管理系統(tǒng),簡稱“文件系統(tǒng)”。知識必備一、文件系統(tǒng)(1)編寫應(yīng)用程序很不方便。應(yīng)用程序的設(shè)計者必須對所用的文件的邏輯及物理結(jié)構(gòu)有清楚的了解。操作系統(tǒng)只能打開、讀、寫和關(guān)閉等幾個低級的文件操作命令,對文件的查詢、修改等處理都必須在應(yīng)用程序內(nèi)進行。應(yīng)用程序還不可避免地在功能上有所重復(fù),在文件系統(tǒng)上編寫應(yīng)用程序的效率也不高。(2)文件的設(shè)計很難滿足多種應(yīng)用程序的不同要求,通常不可避免數(shù)據(jù)冗余。(3)文件結(jié)構(gòu)的修改將導(dǎo)致應(yīng)用程序的修改,增加了應(yīng)用程序的維護工作量。(4)文件系統(tǒng)不支持對文件的并發(fā)訪問。(5)數(shù)據(jù)缺少統(tǒng)一管理,在數(shù)據(jù)的結(jié)構(gòu)、編碼、表示格式、命名以及輸出格式等方面難以做到規(guī)范化、標準化,也難以有效保證數(shù)據(jù)安全性和保密性。文件系統(tǒng)存儲管理數(shù)據(jù)有以下幾個方面的缺點:知識必備二、關(guān)系數(shù)據(jù)庫針對文件系統(tǒng)的缺點,人們開發(fā)了另外一種主流的數(shù)據(jù)存儲和管理技術(shù),那就是數(shù)據(jù)庫系統(tǒng)。在數(shù)據(jù)庫系統(tǒng)中,數(shù)據(jù)不再僅僅服務(wù)于某個程序或用戶,而是一個單位的共享資源,由一個叫數(shù)據(jù)庫管理系統(tǒng)(DBMS)的軟件統(tǒng)一管理。數(shù)據(jù)庫(Database,DB)可理解為存放數(shù)據(jù)的倉庫,指的是以一定方式儲存在一起、能為多個用戶共享、具有盡可能小的冗余度、與應(yīng)用程序彼此獨立的數(shù)據(jù)集合。知識必備二、關(guān)系數(shù)據(jù)庫根據(jù)存儲數(shù)據(jù)時所用數(shù)據(jù)模型的不同,數(shù)據(jù)庫主要分為兩種:關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫,目前比較主流的數(shù)據(jù)庫是關(guān)系數(shù)據(jù)庫。
知識必備二、關(guān)系數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫是指采用關(guān)系模型(即二維表格形式)組織數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),它由數(shù)據(jù)表和數(shù)據(jù)表之間的關(guān)系組成,主要包含關(guān)系、記錄等核心元素。知識必備二、關(guān)系數(shù)據(jù)庫(一)關(guān)系一個關(guān)系對應(yīng)一張二維表,一般表名對應(yīng)著關(guān)系名。如表3-2所示,即為一個關(guān)系,關(guān)系名即表名“學生信息表”。一個數(shù)據(jù)庫中可以有很多張這樣的二維表,且同一數(shù)據(jù)庫中每個表的名字都不應(yīng)該是相同的。知識必備二、關(guān)系數(shù)據(jù)庫(二)記錄表中的一行即為一個記錄,有的系統(tǒng)也稱為元組。數(shù)據(jù)庫表中的數(shù)據(jù)是按照行進行存儲的,每一行就是存儲的一個記錄數(shù)據(jù),比如第一行是張三的數(shù)據(jù),第二行是李四的數(shù)據(jù)。表3-2中有5條記錄。記錄知識必備二、關(guān)系數(shù)據(jù)庫(三)屬性(字段)表中的一列為一個屬性或者字段,每一列的名稱即屬性名或者叫字段名。表中的學號、姓名、性別、年齡、績點,均可稱為字段,有5個字段。在數(shù)據(jù)庫的數(shù)據(jù)表中,字段除了要定義名稱外,還需定義數(shù)據(jù)類型,數(shù)據(jù)類型定義列可以存儲的數(shù)據(jù)種類。例如,如果列中存儲的是數(shù)字,那么對應(yīng)的數(shù)據(jù)類型應(yīng)該是數(shù)值類型;如果列中存儲的是日期、文本、注釋、金額等,應(yīng)該用恰當?shù)臄?shù)據(jù)類型規(guī)定出來。知識必備二、關(guān)系數(shù)據(jù)庫(四)關(guān)鍵字表中的一個屬性或若干個屬性的組合,它可以唯一確定一條記錄。如表3-2學生信息表中的學號可以唯一確定一個學生,因為學號不會重復(fù),但姓名會重名,因此學號是一個關(guān)鍵字。知識必備二、關(guān)系數(shù)據(jù)庫(五)域域是一個或多個屬性允許的值的集合。屬性的取值范圍來自某個域。例如大學生年齡屬性的域是(15~30歲),性別的域是(男,女)。知識必備二、關(guān)系數(shù)據(jù)庫(六)結(jié)構(gòu)化查詢語言結(jié)構(gòu)化查詢語言(StructuredQueryLanguage,SQL)用于對關(guān)系型數(shù)據(jù)庫里的數(shù)據(jù)和表進行查詢、更新和管理。常用的操作語句有:創(chuàng)建數(shù)據(jù)庫表、查詢、增加、刪除、修改創(chuàng)建數(shù)據(jù)庫表:CREATEDATABASE<數(shù)據(jù)庫名>[其他參數(shù)]查詢:SELECT*FROM表WHERE條件表達式。增加:INSERTINTO表名(列名1,列名2,…)VALUES(列值1,列值2,…)。刪除:DELETEFROM表名[WHERE條件表達式]。修改:UPDATE表名SET列名=值[WHERE條件表達式]。知識必備二、關(guān)系數(shù)據(jù)庫(六)結(jié)構(gòu)化查詢語言舉例:如果要查詢學生成績表中的績點大于3.5的學生學號、姓名、績點Select學號,姓名,績點from學生成績表where績點>3.5知識必備二、關(guān)系數(shù)據(jù)庫(七)事務(wù)的ACID特性關(guān)系數(shù)據(jù)庫通常提供事務(wù)處理機制,這為涉及多條記錄的自動化處理提供了解決方案。事務(wù)的ACID特性包括:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。原子性:整個事務(wù)中的所有操作,要么全部成功,要么全部失敗,沒有中間狀態(tài)。一致性:事務(wù)是按照預(yù)期生效的,一致性的核心一部分靠原子性實現(xiàn),另一部分靠邏輯實現(xiàn)。隔離性:一個事務(wù)內(nèi)部的操作及使用的數(shù)據(jù)對并發(fā)的其他事務(wù)是隔離的。事務(wù)的隔離級別一共有4種狀態(tài),可以在數(shù)據(jù)庫中進行設(shè)置。持久性:在事務(wù)完成以后,保證事務(wù)對數(shù)據(jù)庫所做的更改被持久地保存在數(shù)據(jù)庫之中。知識必備二、關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫使用記錄按行進行存儲,記錄存儲在表中,表由架構(gòu)界定。表中的每個列都有名稱和類型,表中的所有記錄都要符合表的定義。對不同的編程語言而言,表可以被看成數(shù)組、記錄列表或者結(jié)構(gòu)。關(guān)系數(shù)據(jù)庫具有結(jié)構(gòu)穩(wěn)定,存儲規(guī)范,添加、刪除、查詢數(shù)據(jù)方便等特點。目前市場上主流的關(guān)系型數(shù)據(jù)庫有MySQL、MicrosoftSQLServer、Oracle、PostgreSQL、Sybase、IBMDb2、MicrosoftAccess等。知識鏈接:幾種常用關(guān)系型數(shù)據(jù)庫詳細介紹知識必備三、數(shù)據(jù)倉庫數(shù)據(jù)倉庫(datawarehouse)是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。一個典型的數(shù)據(jù)倉庫系統(tǒng)通常包含數(shù)據(jù)源、數(shù)據(jù)存儲和管理、聯(lián)機分析處理(OLAP)服務(wù)器,前端工具和應(yīng)用等四個部分,數(shù)據(jù)倉庫的體系結(jié)構(gòu)如圖3-10所示。知識必備三、數(shù)據(jù)倉庫操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織的。主題是與傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)的,是一個抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。主題通常是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方向。每一個主題對應(yīng)一個宏觀的分析領(lǐng)域。數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。(一)面向主題(二)集成數(shù)據(jù)倉庫的數(shù)據(jù)來自分散的操作型數(shù)據(jù),所需要的數(shù)據(jù)需要從原來的數(shù)據(jù)中抽取出來,進行加工與集成、統(tǒng)一與綜合之后才能進入數(shù)據(jù)倉庫。知識必備三、數(shù)據(jù)倉庫數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),涉及的操作主要是數(shù)據(jù)的查詢。(三)相對穩(wěn)定(四)反映歷史變化在構(gòu)建數(shù)據(jù)倉庫時,會每隔一定的時間(比如每周、每天或每時)從數(shù)據(jù)源抽取數(shù)據(jù)并加載到數(shù)據(jù)倉庫,比如,6月1日晚上12點“抓拍”數(shù)據(jù)源中的數(shù)據(jù)保存到數(shù)據(jù)倉庫,然后6月2日、6月3日一直到月底,每天“抓拍”數(shù)據(jù)源中的數(shù)據(jù)保存到數(shù)據(jù)倉庫,這樣,經(jīng)過一個月以后,數(shù)據(jù)倉庫中就會保存了1月份每天的數(shù)據(jù)“快照”,由此得到6月份整月數(shù)據(jù)“快照”,就可以用來進行商務(wù)智能分析,例如分析一個商品在1個月的銷量變化情況。知識必備三、數(shù)據(jù)倉庫數(shù)據(jù)庫是面向事務(wù)的設(shè)計,數(shù)據(jù)倉庫是面向主題設(shè)計的。數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計。數(shù)據(jù)庫與數(shù)據(jù)倉庫區(qū)別知識必備四、并行數(shù)據(jù)庫并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)。這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個關(guān)鍵技術(shù):關(guān)系表的水平劃分和SQL查詢的分區(qū)執(zhí)行。并行數(shù)據(jù)庫系統(tǒng)的目標是高性能和高可用性,它通過多個節(jié)點并行執(zhí)行數(shù)據(jù)庫任務(wù),以提高整個數(shù)據(jù)庫系統(tǒng)的性能和可用性。并行數(shù)據(jù)庫系統(tǒng)的主要缺點是沒有較好的彈性、系統(tǒng)的容錯性較差。學習感悟傳統(tǒng)的數(shù)據(jù)存儲管理中的文件系統(tǒng)和關(guān)系數(shù)據(jù)庫仍然是兩種重要數(shù)據(jù)組織形式。文件系統(tǒng)簡單易擴展、訪問輕松;關(guān)系數(shù)據(jù)庫管理方便快捷、安全性高,所有關(guān)系型數(shù)據(jù)庫都可以用sql(結(jié)構(gòu)化查詢語言)操作數(shù)據(jù)庫,且數(shù)據(jù)庫操作可以設(shè)置權(quán)限控制。數(shù)據(jù)倉庫最終目標是通過已有數(shù)據(jù)集合中的數(shù)據(jù)分析為用戶和業(yè)務(wù)部門提供決策支持,它不是單獨的一個新的數(shù)據(jù)庫系統(tǒng),僅是圍繞某一主題,集成一些分散的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,它的數(shù)據(jù)是靜態(tài)的、不可更新的,僅提供數(shù)據(jù)查詢。并行數(shù)據(jù)庫系統(tǒng)的目標是通過多個節(jié)點并行執(zhí)行數(shù)據(jù)庫任務(wù),以提高整個數(shù)據(jù)庫系統(tǒng)的性能和可用性,雖然在適應(yīng)性和容錯性方面欠缺,但它為大數(shù)據(jù)時代所需的海量數(shù)據(jù)系統(tǒng)的設(shè)計提供了思路。任務(wù)實訓1.掃教材上對應(yīng)二維碼針對必備知識進行在線測試。2.用SQL語句描述對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)和表進行查詢、增加、刪除、修改操作。3.描述數(shù)據(jù)倉庫有哪些主要特點?任務(wù)評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10
遵守課堂紀律。(5分)學習過程
能說出本任務(wù)的學習目標,上課積極發(fā)言,積極回答問題(5分);20
能夠說出文件系統(tǒng)存儲基本原理和缺點;(5分)能夠分辨關(guān)系數(shù)據(jù)庫中的各核心元素;(5分)能夠理解和回答數(shù)據(jù)倉庫、并行數(shù)據(jù)庫。(5分)學習結(jié)果“在線測試”選擇題和判斷題考評;(3分×10=30分)70
SQL語句的考評。(20分)數(shù)據(jù)倉庫特點的考評(20分)合
計100
所占比例100%30%30%40%綜合評分
任務(wù)三大數(shù)據(jù)的存儲管理任務(wù)清單工作任務(wù)大數(shù)據(jù)存儲管理教學模式任務(wù)驅(qū)動建議學時2課時教學地點一體化教室任務(wù)描述隨著數(shù)字圖書館、多媒體傳輸、電子商務(wù)等應(yīng)用的不斷發(fā)展,數(shù)據(jù)向PB量級急速增加,對存儲容量提出了巨大的要求;同時,由于數(shù)據(jù)的多樣化、對重要數(shù)據(jù)保護以及地理上的分散性等對數(shù)據(jù)的有效管理提出了更高的要求。在大數(shù)據(jù)時代,普通PC的存儲容量、傳統(tǒng)數(shù)據(jù)的存儲管理方法,已經(jīng)無法滿足大數(shù)據(jù)需求,需要進行存儲技術(shù)的變革。那么,大數(shù)據(jù)時代的數(shù)據(jù)存儲管理是如何進行的呢?有哪些存儲管理技術(shù)來解決大規(guī)模數(shù)據(jù)的持久存儲和管理的呢?任務(wù)目標掌握大數(shù)據(jù)存儲與傳統(tǒng)數(shù)據(jù)存儲的不同點;理解和熟悉分布式文件系統(tǒng)特點;理解NoSQL數(shù)據(jù)庫的基本概念;熟悉典型的NoSQL數(shù)據(jù)庫以及它們各自特點;了解什么叫NewSQL數(shù)據(jù)庫;掌握云存儲和云數(shù)據(jù)庫的基本概念和特點;能判別典型的NoSQL數(shù)據(jù)庫的特點以及各自適合場景;能熟練使用云盤或網(wǎng)盤的存儲數(shù)據(jù);養(yǎng)成對大數(shù)據(jù)進行存儲與管理的職業(yè)習慣。關(guān)鍵詞分布式文件系統(tǒng)、NoSQL、NewSQL、云存儲、云數(shù)據(jù)庫知識必備一、分布式文件系統(tǒng)分布式文件系統(tǒng)是由多個網(wǎng)絡(luò)節(jié)點組成的向上層應(yīng)用提供統(tǒng)一的文件服務(wù)的文件系統(tǒng)。分布式文件系統(tǒng)中的每個節(jié)點可以分布在不同的地理位置,通過網(wǎng)絡(luò)進行節(jié)點間的通信和數(shù)據(jù)傳輸。分布式文件系統(tǒng)中的文件在物理上可能被分散存儲在不同的節(jié)點上,在邏輯上仍然是一個完整的文件。使用分布式文件系統(tǒng)時,我們無須關(guān)心數(shù)據(jù)存儲在哪個節(jié)點上,只要像本地文件系統(tǒng)一樣管理和存儲文件數(shù)據(jù)即可。目前,人們常用的分布式磁盤文件系統(tǒng)是HDFS(Hadoop分布式文件系統(tǒng))、GFS(Google分布式文件系統(tǒng))、KFS(Kosmos分布式文件系統(tǒng))等;常用的分布式內(nèi)存文件系統(tǒng)是Tachyon等。知識必備一、分布式文件系統(tǒng)如圖所示,分布式文件系統(tǒng)把大量數(shù)據(jù)分散到不同的節(jié)點上存儲,大大減小了數(shù)據(jù)丟失的風險。分布式文件系統(tǒng)具有冗余性,部分節(jié)點的故障并不影響整體的正常運行,而且即使出現(xiàn)故障的計算機中存儲的數(shù)據(jù)已經(jīng)損壞,也可以由其它節(jié)點將損壞的數(shù)據(jù)恢復(fù)出來。因此,安全性是分布式文件系統(tǒng)最主要的特征。知識必備二、NoSQL數(shù)據(jù)庫大數(shù)據(jù)時代,傳統(tǒng)的關(guān)系數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求,主要原因是:第一,傳統(tǒng)的關(guān)系數(shù)庫無法滿足海量數(shù)據(jù)的管理需求;第二,傳統(tǒng)的關(guān)系數(shù)據(jù)庫無法滿足數(shù)據(jù)高并發(fā)的需求;第三,傳統(tǒng)的關(guān)系數(shù)據(jù)庫高可擴展性和高可用性的功能太低。NoSQL又叫作非關(guān)系型數(shù)據(jù)庫,它是英文“NotOnlySQL”的縮寫,即“不僅僅是SQL”。NoSQL一詞最早出現(xiàn)于1998年,是卡洛·斯特羅齊(CarloStrozzi)開發(fā)的一個輕量、開源、不提供SQL功能的非關(guān)系型數(shù)據(jù)庫。NoSQL數(shù)據(jù)庫可以支持超大規(guī)模數(shù)據(jù)存儲,靈活的數(shù)據(jù)模型可以很好地支持Web2.0應(yīng)用,具有強大的橫向擴展能力等,典型的NoSQL數(shù)據(jù)庫包含鍵位數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫、圖形數(shù)據(jù)庫。知識必備二、NoSQL數(shù)據(jù)庫鍵-值(Key-Value)數(shù)據(jù)庫是一種NoSQL數(shù)據(jù)庫,用戶可以通過Key來添加、查詢或者刪除數(shù)據(jù)。因為使用Key主鍵訪問,所以會獲得很高的性能及擴展性。鍵-值存儲非常適合不涉及過多數(shù)據(jù)關(guān)系和業(yè)務(wù)關(guān)系的數(shù)據(jù),同時能有效減少讀/寫磁盤的次數(shù),比SQL數(shù)據(jù)庫存儲擁有更好的讀/寫性能。(一)鍵位數(shù)據(jù)庫知識必備二、NoSQL數(shù)據(jù)庫HBase(分布式數(shù)據(jù)庫)是一種NoSQL(非關(guān)系型數(shù)據(jù)庫)模型,它是一個疏松的、分布式的、已排序的多維度持久化的列族數(shù)據(jù)庫。列存儲數(shù)據(jù)庫將數(shù)據(jù)存在列族(columnfamily)中,數(shù)據(jù)存儲的基本單位是一個列,它具有一個名稱和一個值,一個列族存儲經(jīng)常被一起查詢的相關(guān)數(shù)據(jù)。由列的集合組成的每一行,通過行-鍵標識來標示,列組合在一起成為列族。(二)列族數(shù)據(jù)庫知識必備二、NoSQL數(shù)據(jù)庫文檔數(shù)據(jù)庫會將數(shù)據(jù)以文檔的形式存儲。每個文檔都是自包含的數(shù)據(jù)單元,是一系列數(shù)據(jù)項的集合。每個數(shù)據(jù)項都有一個名稱與對應(yīng)的值。此值既可以是簡單的數(shù)據(jù)類型,如字符串、數(shù)字和日期等;也可以是復(fù)雜的類型,如有序列表和關(guān)聯(lián)對象。(三)文檔數(shù)據(jù)庫知識必備二、NoSQL數(shù)據(jù)庫圖形數(shù)據(jù)庫可用于對真實世界的各種對象進行建模,以反映這些事物之間的相互關(guān)系。最常見例子就是社交圖譜中人與人之間的關(guān)系。如圖3-12就是一個圖形數(shù)據(jù)庫的示例,一個圖形數(shù)據(jù)庫最主要的組成有兩種,即節(jié)點集和連接節(jié)點的關(guān)系,圖中表示了一系列節(jié)點的集合,比較接近于關(guān)系型數(shù)據(jù)庫中最常使用的表,而關(guān)系則是節(jié)點與節(jié)點的聯(lián)系,是圖形數(shù)據(jù)庫所特有的。主流的圖形數(shù)據(jù)庫有GooglePregel、Neo4j、InfiniteGraph等(四)圖形數(shù)據(jù)庫知識必備三、NewSQL數(shù)據(jù)庫NewSQL是對各種新的可擴展、高性能數(shù)據(jù)庫的簡稱,它是一種相對較新的形式,旨在使用現(xiàn)有的編程語言和以前不可用的技術(shù)來結(jié)合SQL和NoSQL。這類數(shù)據(jù)庫不僅具有NoSQL對海量數(shù)據(jù)的存儲管理能力,還保持了傳統(tǒng)數(shù)據(jù)庫支持ACID和SQL等特性。不同的NewSQL數(shù)據(jù)庫的內(nèi)部結(jié)構(gòu)差異很大,但它們有兩個顯著的共同特點:都支持關(guān)系數(shù)據(jù)庫模型、使用SQL作為其主要的接口。目前具有代表性的NewSQL數(shù)據(jù)庫有Spanner,它是一個可擴展、多版本、全球分布式并且支持同步復(fù)制的數(shù)據(jù)庫,是谷歌的第一個可以全球擴展并且支持外部一致性的數(shù)據(jù)庫。知識必備四、云存儲和云數(shù)據(jù)庫云存儲是一個新的概念,是一種新興的網(wǎng)絡(luò)存儲技術(shù),指通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,借助應(yīng)用軟件將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一種服務(wù),如圖所示。知識必備四、云存儲和云數(shù)據(jù)庫云存儲的特點:第一,存儲管理可以實現(xiàn)自動化和智能化,所有的存儲資源被整合到一起,客戶看到的是單一存儲空間;第二,云存儲通過虛擬化技術(shù)解決了存儲空間的浪費,可以重新自動分配數(shù)據(jù),提高了存儲空間的利用率,同時具備負載均衡、故障冗余功能;第三,云存儲能夠?qū)崿F(xiàn)規(guī)模效應(yīng)和彈性擴展,降低運營成本,避免資源浪費。知識必備四、云存儲和云數(shù)據(jù)庫云數(shù)據(jù)庫是指被優(yōu)化或部署到一個虛擬計算環(huán)境中“云端”的數(shù)據(jù)庫,可以實現(xiàn)按需付費、按需擴展、高可用性以及存儲整合等優(yōu)勢。是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法,它極大地增強了數(shù)據(jù)庫的存儲能力,云數(shù)據(jù)庫的安裝、部署等工作,都是在云端完成的,非常便捷,消除了人員、硬件、軟件的重復(fù)配置,讓軟、硬件升級變得更加容易。云數(shù)據(jù)庫的特征包括:高可用性、易用性、動態(tài)可擴展性、低使用代價、高性能、免維護和安全性等。目前常用的云數(shù)據(jù)庫產(chǎn)品有MicrosoftSQLAzure、GoogleCloudSQL以及阿里云等。知識鏈接:華為數(shù)據(jù)存儲與智能管理學習感悟目前,大數(shù)據(jù)主要來源于搜索引擎服務(wù)、電子商務(wù)、社交網(wǎng)絡(luò)、音視頻、在線服務(wù)、個人數(shù)據(jù)業(yè)務(wù)、地理信息數(shù)據(jù)、傳統(tǒng)企業(yè)、公共機構(gòu)等領(lǐng)域。大數(shù)據(jù)面臨的存儲管理問題主要體現(xiàn)在:種類和來源多樣化、存儲管理復(fù)雜、對數(shù)據(jù)服務(wù)的種類和水平要求越來越高等。為了有效應(yīng)對現(xiàn)實世界中復(fù)雜多樣性的大數(shù)據(jù)處理需求,需要針對不同的大數(shù)據(jù)應(yīng)用特征,從多個角度、多個層次對大數(shù)據(jù)進行存儲和管理。大數(shù)據(jù)現(xiàn)象意味著企業(yè)機構(gòu)應(yīng)對大量數(shù)據(jù),以及各種數(shù)據(jù)格式的挑戰(zhàn)。多樣化作為有效方式而在各行各業(yè)興起,是一種涉及各種產(chǎn)品來支持數(shù)據(jù)管理戰(zhàn)略的數(shù)據(jù)存儲模式。管理大數(shù)據(jù)的關(guān)鍵是制定戰(zhàn)略,以高自動化、高可靠、高成本效益的方式歸檔數(shù)據(jù)。目前,我國的華為、阿里、百度、騰訊等公司正在打造世界領(lǐng)先的數(shù)據(jù)存儲產(chǎn)品與解決方案。任務(wù)實訓1.掃教材上對應(yīng)二維碼針對必備知識進行在線測試。2.非關(guān)系型存儲系統(tǒng)有哪些,它們的特點是什么?3.登錄百度智能云網(wǎng)站(/)以及百度網(wǎng)盤(/)了解“百度云”與“百度網(wǎng)盤”的區(qū)別,并使用百度網(wǎng)盤完成相應(yīng)文件上傳與下載等操作,探索百度網(wǎng)盤存儲服務(wù)。任務(wù)評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10
遵守課堂紀律。(5分)學習過程
能說出本任務(wù)的學習目標,上課積極發(fā)言,積極回答問題(5分);20
能夠回答分布式文件系統(tǒng)存儲原理;(5分)能夠回答典型的NoSQL及各自特點(5分)能夠理解和回答云存儲和云數(shù)據(jù)庫模式。(5分)學習結(jié)果“在線測試”選擇題和判斷題考評;(3分×10=30分)70
非關(guān)系存儲系統(tǒng)NoSQL的考評;(20分)百度云和百度網(wǎng)盤體驗的考評。(20分)合
計100
所占比例100%30%30%40%綜合評分
項目小結(jié)通過本項目,讀者應(yīng)該掌握的理論知識如下:數(shù)據(jù)存儲概念,數(shù)據(jù)存儲的度量,數(shù)據(jù)存儲介質(zhì)、數(shù)據(jù)存儲的方式。傳統(tǒng)數(shù)據(jù)存儲中的文件系統(tǒng)、關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和并行數(shù)據(jù)庫存儲管理技術(shù)。大數(shù)據(jù)存儲管理中的分布式文件系統(tǒng)、NoSQL數(shù)據(jù)庫、NewSQL數(shù)據(jù)庫、云存儲等相關(guān)技術(shù)。通過本項目,讀者應(yīng)該掌握的技能如下:能夠根據(jù)數(shù)據(jù)的度量判斷數(shù)據(jù)存儲的規(guī)模大小,能進行數(shù)據(jù)存儲度量單位的換算;能夠根據(jù)數(shù)據(jù)存儲要求和數(shù)據(jù)特點選用合適存儲介質(zhì)和數(shù)據(jù)存儲方法;能理解和運用關(guān)系數(shù)據(jù)庫的各種核心元素;能使用百度網(wǎng)盤等云存儲技術(shù)存儲數(shù)據(jù)。復(fù)習與鞏固1.有哪些常用的數(shù)據(jù)存儲介質(zhì)?存儲介質(zhì)的選用原則是什么?2.數(shù)據(jù)存儲方式有哪幾種?比較它們各自特點以及適合的場景。3.關(guān)系數(shù)據(jù)庫的特點是什么?常用的關(guān)系數(shù)據(jù)庫系統(tǒng)有哪些?4.描述什么叫數(shù)據(jù)倉庫,比較數(shù)據(jù)倉庫與數(shù)據(jù)庫有什么不同?5.請列舉典型的分布式文件系統(tǒng),并簡要描述。6.NoSQL數(shù)據(jù)庫的特點是什么?有哪些典型NoSQL數(shù)據(jù)庫?6.描述你對云存儲的認識。7.請針對學生課程成績查詢的場景,設(shè)計主要的關(guān)系數(shù)據(jù)表結(jié)構(gòu),并描述對應(yīng)的SQL語句。謝謝聆聽THANKYOUFORYOURATTENTION項目四
數(shù)據(jù)分析與挖掘項目簡介
大數(shù)據(jù)之所以具備戰(zhàn)略意義,不在于其掌握數(shù)據(jù)量如何巨大,而在于通過對大數(shù)據(jù)的分析和挖掘,可以獲得更多深入的、有價值的信息并加以利用,從而有效提升競爭力。數(shù)據(jù)分析與挖掘是挖掘大數(shù)據(jù)價值的最主要的手段,也是決定最終信息是否有價值的主要因素。本項目將帶領(lǐng)你認知數(shù)據(jù)分析作用、基本分析方法和思維模式,運用常見的大數(shù)據(jù)分析模型和方法工具,探究大數(shù)據(jù)挖掘過程和應(yīng)用。學習目標知識目標1了解大數(shù)據(jù)分析技術(shù)工具;2.理解數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)分析的基本概念;3.熟悉數(shù)據(jù)分析作用、數(shù)據(jù)挖掘分類和相關(guān)技術(shù);4.熟悉常見的大數(shù)據(jù)分析方法和大數(shù)據(jù)分析模型5.掌握數(shù)據(jù)分析常用方法和思維模式;6.掌握數(shù)據(jù)挖掘過程和數(shù)據(jù)挖掘應(yīng)用。。能力目標1.能根據(jù)數(shù)據(jù)分析目標選定數(shù)據(jù)分析方法;2.能夠描述數(shù)據(jù)挖掘過程,分析數(shù)據(jù)挖掘應(yīng)用;3.能運用常見的大數(shù)據(jù)分析方法、工具和模型分析問題。素質(zhì)目標1.養(yǎng)成數(shù)據(jù)挖掘和分析的職業(yè)習慣;2.養(yǎng)成對事物分析的客觀、敏感的職業(yè)思維方式。。思政目標通過數(shù)據(jù)分析思維模式學習,培養(yǎng)學生的辯證法思維以及利用客觀數(shù)據(jù)進行緣事析理的能力;通過把數(shù)據(jù)分析技術(shù)與社會熱點相結(jié)合,培養(yǎng)學生的社會責任感和家國情懷;通過各種數(shù)據(jù)分析和數(shù)據(jù)挖掘方法的學習,理解人類對學習行為本身研究的努力和堅持,強化對未知世界和科學領(lǐng)域的探索愿望和憧憬,欲窮千里目、更上一層樓。思維導(dǎo)圖任務(wù)一初窺數(shù)據(jù)分析任務(wù)清單工作任務(wù)初窺數(shù)據(jù)分析教學模式任務(wù)驅(qū)動建議學時2課時教學地點一體化教室任務(wù)描述小王畢業(yè)后去應(yīng)聘一家化妝品公司的運營數(shù)據(jù)分析崗位,該公司主營面膜、水乳膏霜、玫瑰純露等天然植物養(yǎng)護產(chǎn)品,在淘寶、京東、拼多多等都擁有網(wǎng)絡(luò)店鋪,其主要消費群體為女大學生、公司女白領(lǐng)、家庭主婦等。面試中,面試官問其一個問題;“現(xiàn)在要求你以一位數(shù)據(jù)分析員角色向經(jīng)理匯報本月經(jīng)營情況,你會怎樣匯報?并說說你的理由”。要回答好這個問題,必須掌握好數(shù)據(jù)分析的基本思維邏輯,明確數(shù)據(jù)分析角度去匯報。任務(wù)目標理解數(shù)據(jù)分析概念;掌握數(shù)據(jù)分析作用;掌握常見數(shù)據(jù)分析方法;理解和掌握數(shù)據(jù)分析的思維模式;能根據(jù)企業(yè)需求和數(shù)據(jù)分析作用確定數(shù)據(jù)分析目標;能根據(jù)實際需求應(yīng)用不同數(shù)據(jù)分析思維模式;能根據(jù)數(shù)據(jù)分析需要選擇常用數(shù)據(jù)分析方法;養(yǎng)成良好的邏輯思維意識和數(shù)據(jù)思維意識。關(guān)鍵詞數(shù)據(jù)分析作用、數(shù)據(jù)分析方法、數(shù)據(jù)分析模式、維度法、指標法知識必備一、什么叫數(shù)據(jù)分析?所謂數(shù)據(jù)分析,是指用適當?shù)姆椒?,對收集來的大量?shù)據(jù)進行分析,提取有用信息和形成結(jié)論,從而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。在實際應(yīng)用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當行動。例如,數(shù)據(jù)分析可以幫助企業(yè)提升營銷的針對性,數(shù)據(jù)分析可以幫助政府實現(xiàn)市場經(jīng)濟調(diào)控,數(shù)據(jù)分析可以幫助醫(yī)療機構(gòu)建立疫情風險跟蹤機制,數(shù)據(jù)分析可以幫助航空公司節(jié)省運營成本,等等。知識必備二、數(shù)據(jù)分析作用數(shù)據(jù)分析的作用,在于能利用數(shù)據(jù)分析的結(jié)果解決遇到的問題,具體而言,數(shù)據(jù)分析的作用主要體現(xiàn)在以下三個方面:現(xiàn)狀分析、原因分析、預(yù)測分析。知識必備二、數(shù)據(jù)分析作用現(xiàn)狀分析也稱為描述性分析,它是數(shù)據(jù)分析最常見也最普遍的形式。它是對歷史的洞察,即回答“發(fā)生了什么?”這類問題。此種分析完全基于歷史對數(shù)據(jù)進行描述,這里的“歷史”是指數(shù)據(jù)發(fā)生的任何特定時間,可以是一個月前、幾年前,也可以是一分鐘前或者幾秒前。1、現(xiàn)狀分析—發(fā)生了什么知識必備二、數(shù)據(jù)分析作用現(xiàn)狀分析的作用在于能分析企業(yè)目前階段的整體運營情況,并通過各種運營指標來衡量企業(yè)當前的運營狀況,指出存在的優(yōu)勢與不足。其次,通過分析企業(yè)每個業(yè)務(wù)的組成,以便了解企業(yè)每個業(yè)務(wù)的發(fā)展和變化情況,并對企業(yè)的業(yè)務(wù)狀態(tài)有更深入的了解?,F(xiàn)狀分析通常是以報告形式呈現(xiàn),例如每日、每周和每月報告。1、現(xiàn)狀分析—發(fā)生了什么日報表周報表月報表知識必備二、數(shù)據(jù)分析作用原因分析也稱為診斷性分析,它是通過數(shù)據(jù)分析來回答“為什么會發(fā)生這種情況?”的問題。因此,您可以通過分析數(shù)據(jù)了解與您工作的組織、其客戶、員工、產(chǎn)品等相關(guān)的特定行為和事件的原因。假設(shè)您沒有對產(chǎn)品的銷售進行任何營銷修改,但它的銷售額已顯著增加。診斷分析將用于識別這種異常并確定這種變化的原因。2、原因分析—為什么會發(fā)生知識必備二、數(shù)據(jù)分析作用原因分析可以幫助您更好地了解您的數(shù)據(jù),并以多種方式找到應(yīng)對業(yè)務(wù)挑戰(zhàn)的答案。企業(yè)可以使用工具來過濾、查找和比較個人創(chuàng)建的數(shù)據(jù),以便使用這種分析形式更好地了解他們的客戶。原因分析通常通過主題進行分析,即根據(jù)企業(yè)的經(jīng)營情況,根據(jù)一定的現(xiàn)狀進行分析。2、原因分析—為什么會發(fā)生知識必備二、數(shù)據(jù)分析作用預(yù)測性分析則是專注于預(yù)測并理解未來可能發(fā)生的情況。它通過分析歷史的數(shù)據(jù)與客戶洞察來總結(jié)過去的數(shù)據(jù)模式和趨勢,以預(yù)測未來“可能發(fā)生的情況”。預(yù)測性分析大多是基于概率的,即預(yù)測事件在未來發(fā)生的概率,或者事件在大概率上會如何發(fā)生。在預(yù)測性分析中,一般會使用數(shù)據(jù)挖掘,統(tǒng)計建模和機器學習算法等等方法。3、預(yù)測分析—可能發(fā)生什么知識必備二、數(shù)據(jù)分析作用預(yù)測分析能幫助企業(yè)對未來發(fā)展趨勢進行預(yù)測,制定業(yè)務(wù)目標,設(shè)計有效的營銷計劃,規(guī)避風險,提供有效的戰(zhàn)略和決策依據(jù),以確保公司的持續(xù)健康發(fā)展。預(yù)測分析通常是通過主題分析來完成的,主題分析一般在制定公司的季度和年度計劃時進行。3、預(yù)測分析—可能發(fā)生什么知識必備二、數(shù)據(jù)分析作用
以上數(shù)據(jù)分析三方面作用,實際上也是對應(yīng)著我們?nèi)粘?shù)據(jù)分析中的三種基本類別:描述性分析、診斷性分析、預(yù)測性分析。這三種類別在實際應(yīng)用中的復(fù)雜性也是由低到高排列。在數(shù)據(jù)分析類別中,通常我們還會提一種“規(guī)范性分析”,它可歸于數(shù)據(jù)分析類別中的第四種,這種分析是最后也是最復(fù)雜的階段,是告訴企業(yè)“需要做什么?該怎么做?”知識必備二、數(shù)據(jù)分析作用“規(guī)范性分析”,可以幫助企業(yè)根據(jù)可用的數(shù)據(jù)做出最佳決策,即執(zhí)行哪些操作。規(guī)范性分析需要多種技術(shù)和工具應(yīng)用,同時分析的數(shù)據(jù)也會包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),因此很少用于日常業(yè)務(wù)運營中。典型的規(guī)范性分析應(yīng)用的場景例如:石油和制造業(yè)中追蹤價格波動、保險業(yè)中為客戶評估有關(guān)定價和保費信息的風險等。知識必備三、常用數(shù)據(jù)分析方法知道了數(shù)據(jù)分析的三大作用,那么這些作用應(yīng)該通過什么樣的分析方法來實現(xiàn)呢?這三大作用分別對應(yīng)對比、細分、預(yù)測3類基本方法,詳見表4-1。針對不同的數(shù)據(jù)分析作用,有不同的數(shù)據(jù)分析方法。這里我們介紹日常使用較多的幾種分析方法:對比分析法、平均分析法、分組分析法、交叉分析法。知識必備三、常用數(shù)據(jù)分析方法1.對比分析法對比分析法,是數(shù)據(jù)分析的基本方法之一,也是應(yīng)用最廣泛的數(shù)據(jù)分析方法。它是指將兩個或兩個以上的數(shù)據(jù)進行比較,分析它們的差異,從而揭示這些數(shù)據(jù)所代表的事物的發(fā)展變化情況和規(guī)律性。知識必備三、常用數(shù)據(jù)分析方法1.對比分析法對比分析法的特點是可以非常直觀地看出事物某方面的變化或差距,并且可以準確、量化地表示出這種變化或差距是多少。對比方法可分為靜態(tài)比較和動態(tài)比較兩類。靜態(tài)比較是指在同一時間條件下對不同總量指標的比較,如不同地域、不同月份的比較,也叫橫向比較,簡稱橫比。動態(tài)比較是指在同一總體條件下對不同時期指標數(shù)值的比較,也叫縱向比較,簡稱縱比。知識必備三、常用數(shù)據(jù)分析方法(1)與目標對比。實際完成值與目標進行對比,屬于橫比。例如,企業(yè)在每個年度年初都會制定全年銷售目標,當年底總結(jié)時就要把實際銷售情況與年初的銷售目標進行對比。(2)不同時期對比。選擇不同時期的指標數(shù)值作為對比標準,屬于縱比。與去年同期對比稱為同比,與上個月完成情況對比稱為環(huán)比。通過對比自身在不同時間點上的完成情況,就可知道自身是進步還是退步。目前對比分析常用的維度有以下幾個:知識必備三、常用數(shù)據(jù)分析方法(3)同級部門、單位、地區(qū)對比。與同級部門、單位、地區(qū)進行對比,屬于橫比。(4)行業(yè)內(nèi)對比。與行業(yè)中的標桿企業(yè)、競爭對手或行業(yè)的平均水平進行對比,屬于橫比。(5)活動效果對比。對某項營銷活動開展前后進行對比,屬于縱比。目前對比分析常用的維度有以下幾個:指標的口徑方位、計算方法、計量單位必須一致。對比的對象要有可比性。對比的指標類型必須一致。進行對比分析時還要考慮以下幾個因素:知識必備三、常用數(shù)據(jù)分析方法2.平均分析法平均分析法,也是應(yīng)用較廣泛的數(shù)據(jù)分析方法。是指運用計算平均數(shù)的方法來反映總體在一定時間、地點條件下某一數(shù)量特征的一般水平。平均指標有算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)、眾數(shù)和中位數(shù)等。算術(shù)平均數(shù)=總體各單位數(shù)值的總和/總體單位個數(shù)。知識必備三、常用數(shù)據(jù)分析方法2.平均分析法平均分析法的主要作用有:利用平均指標對比同類現(xiàn)象在不同地區(qū)、不同行業(yè)、不同類型單位等之間的差異程度,比用總量指標對比更具有說服力。利用平均指標對比某些現(xiàn)象在不同歷史時期的變化,更能說明其發(fā)展趨勢和規(guī)律。知識必備三、常用數(shù)據(jù)分析方法3.分組分析法數(shù)據(jù)分析不僅要對總體的數(shù)量特征和數(shù)量關(guān)系進行分析,還要深入總體內(nèi)部進行分組分析。分組分析法是一種重要的數(shù)據(jù)分析方法,這種方法是根據(jù)數(shù)據(jù)分析對象的特征按照一定的標志(指標),把數(shù)據(jù)分析對象劃分為不同的部分和類型來進行研究,以展示其內(nèi)在的聯(lián)系和規(guī)律性。知識必備三、常用數(shù)據(jù)分析方法3.分組分析法分組的目的就是為了進行組間對比,把總體中具有不同性質(zhì)的對象區(qū)分開,把性質(zhì)相同的對象合并在一起,保持各組內(nèi)對象屬性的一致性、組與組之間屬性的差異性,以便進一步運用各種數(shù)據(jù)分析方法來解析內(nèi)在的數(shù)量關(guān)系,因此分組分析法必須與對比分析法結(jié)合運用。分組分析法的關(guān)鍵在于確定組數(shù)與組距。在數(shù)據(jù)分組中,各組之間的取值界限稱為組限,一個組的最小值稱為下限,最大值稱為上限;上限與下限的差值稱為組距;上限值與下限值的平均數(shù)稱為組中值,它是一組變量值的代表值。知識必備三、常用數(shù)據(jù)分析方法4.交叉分析法交叉分析法,通常用于分析兩個變量(字段)之間的關(guān)系,即同時將兩個有一定聯(lián)系的變量及其值交叉排列在一張表格內(nèi),使各變量值成為不同變量的交叉結(jié)點,形成交叉表,從而分析交叉表中變量之間的關(guān)系,也叫交叉表分析法。知識必備四、數(shù)據(jù)分析思維模式在數(shù)據(jù)分析中,我們一般需要掌握結(jié)構(gòu)化思維、假說演繹思維、指標化思維和維度分析思維四種思維模式。結(jié)構(gòu)化思維和假說演繹思維主要幫助我們?nèi)ザㄐ苑治?,指標化思維和維度分析思維是幫助我們?nèi)ザ糠治?。定性分析定量分析假說演繹思維結(jié)構(gòu)化思維維度分析思維指標化思維知識必備四、數(shù)據(jù)分析思維模式結(jié)構(gòu)化思維就是把復(fù)雜問題分解成多種單一因素的過程,并且將這些因素加以歸納和整理,使之條理化、綱領(lǐng)化,如圖所示。這個過程猶如抽絲剝繭,將一團亂麻整理得條條順順。例如,有一個銷售的產(chǎn)品,4月份的銷售額和去年同比下降了30%。那么,在數(shù)據(jù)分析時后,我們首先分析時間趨勢下的波動,看是突然暴跌還是逐漸下降;再接著分析不同地區(qū)的數(shù)據(jù)差異,有沒有地區(qū)性的因素影響;再接下來分析一下競爭對手數(shù)據(jù),就是這樣一步步用結(jié)構(gòu)化思維去梳理。1.結(jié)構(gòu)化思維知識必備四、數(shù)據(jù)分析思維模式以現(xiàn)實情況為起點的推理方法叫歸納推理,以規(guī)則為起點的推理方法可以稱之為演繹推理。例如:某網(wǎng)店想將某款商品提價,讓你分析銷售額會有怎樣的變化?如圖所示。2.假說演繹思維知識必備四、數(shù)據(jù)分析思維模式數(shù)據(jù)分析是精細化的工作,一定要建立起體系化的思維,建立起數(shù)據(jù)分析的指標體系。假設(shè)有一家電商公司,我們想要了解網(wǎng)站運營的情況如何?運營人員向我們描述:我們的網(wǎng)站的流量很高啊,比淘寶差一點,比京東好一點,每天都有大量的新用戶,老用戶下單也很活躍啊。那我們就疑惑了,流量高是多少?大量的新用戶怎么衡量?一個手機注冊了算新用戶還是新下單的用戶?下單活躍又是怎么個活躍法?這樣的問題相信只能憑運營人員的經(jīng)驗來判斷,而經(jīng)驗帶來的“后果”往往是拍腦袋式的決策。3.指標化思維知識必備四、數(shù)據(jù)分析思維模式在指標分析時不是有指標就行了,而是應(yīng)該把指標按照結(jié)構(gòu)化思維可以形成一個體系,如銷售分析指標體系、生產(chǎn)指標體系、電商行業(yè)指標體系。指標體系沒有放之四海而皆準的模板,不同業(yè)務(wù)形態(tài)有不同的指標體系。一家企業(yè)建立的數(shù)據(jù)分析體系通常細分到了具體可執(zhí)行的部分,可以根據(jù)設(shè)定的某個指標異常變化,相應(yīng)立即執(zhí)行相應(yīng)的方案,來保證運營的正常進行。3.指標化思維知識必備四、數(shù)據(jù)分析思維模式建立指標體系的思路:向上:可以按業(yè)務(wù)職能結(jié)構(gòu)劃分,映射出更多維度,比如渠道,運營,產(chǎn)品等相關(guān)模塊;將相關(guān)指標映射到主要模塊,通過簡單快速的溝通,快速定位問題原因。向下:可以按因果結(jié)構(gòu)劃分,也就是指標分解,利用公式的方法。比如“銷售額=下單人數(shù)*平均每人購買金額”等指標因果關(guān)系進行劃分;通過定位指標波動、定位最細指標、輔助維度下轉(zhuǎn),能夠清楚問題原因;就像枝丫一樣,從主干不斷延伸枝丫,將業(yè)務(wù)用指標評價量化,逐漸形成一個健全的數(shù)據(jù)分析體系。3.指標化思維知識必備四、數(shù)據(jù)分析思維模式維度不是一個固定數(shù)字,而是一種視角,是描述對象的參數(shù),在具體分析中,我們可以把它認為是分析事物的角度。銷量是一種角度、活躍率是一種角度,時間也是一種角度,所以它們都能算維度。當我們有了維度后,就能夠通過不同的維度組合,形成數(shù)據(jù)模型;數(shù)據(jù)模型不是一個高深的概念,它就是一個多維立方體。4.維度分析思維知識必備四、數(shù)據(jù)分析思維模式例如,假如我們有以下兩個數(shù)據(jù)表,4.2商品信息表和4.3的客戶成交訂單表。知識必備四、數(shù)據(jù)分析思維模式在4.2商品信息表中,我們可以選擇品牌作為維度,就可以分析手機的銷量情況,也可以將時間作為維度,分析每一年手機市場各種品牌的份額情況。在4.4客戶訂單中,可以選擇產(chǎn)品型號作為維度,分析產(chǎn)品型號在各城市的銷售情況。假如我們把兩張表結(jié)合起來,選擇品牌、城市、時間這三個維度,就可組成如圖4-4的一個簡化的分析模型,我們得到的信息就會更多了。知識必備四、數(shù)據(jù)分析思維模式鉆?。―rill-down):在維的不同層次間的變化,從上層降到下一層,或者說是將匯總數(shù)據(jù)拆分到更細節(jié)的數(shù)據(jù);比如通過對2021年華為的總銷售數(shù)據(jù)進行鉆取來查看各個手機型號的銷售數(shù)據(jù)。上卷(Roll-up):鉆取的逆操作,即從細粒度數(shù)據(jù)向高層的聚合;如將南京、上海市和杭州的銷售數(shù)據(jù)進行匯總來查看江浙滬地區(qū)的銷售數(shù)據(jù)。切片(Slice):選擇維中特定的值進行分析;比如只選擇蘋果手機的銷售數(shù)據(jù),或2019年的手機銷售數(shù)據(jù)。切塊(Dice):選擇維中特定區(qū)間的數(shù)據(jù)進行分析;比如選擇2019年2020年的銷售數(shù)據(jù)。旋轉(zhuǎn)(Pivot):即維的位置的互換,就像是二維表的行列轉(zhuǎn)換;如圖中通過旋轉(zhuǎn)實現(xiàn)產(chǎn)品維和地域維的互換。在多維分析中,我們還可以通過鉆?。―rill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(zhuǎn)(Pivot)等操作獲取不同信息。學習感悟做數(shù)據(jù)分析,首先我們要明確數(shù)據(jù)分析目的,是做現(xiàn)狀分析、原因分析還是預(yù)測分析,確定了目的才會有方向。接下來就是我們以一種什么思維模式去分析了,結(jié)構(gòu)化思維模式和假說演繹思維模式主要是幫助我們把復(fù)雜問題條理化,但它畢竟都還只是定性思維模式。實際的數(shù)據(jù)分析必須要有定量思維,也就是我們通常所說的指標思維和維度思維模式,要學會利用客觀數(shù)據(jù)進行緣事析理。在做數(shù)據(jù)定量分析時,首先我們必須確定分析的維度,對于商務(wù)數(shù)據(jù)分析而言,常用的維度包括時間維度、空間維度(泛指除時間維度以外維度)。維度確定后,接下來就是確定分析的指標了。用指標法做數(shù)據(jù)分析時,最關(guān)鍵是選擇合適的指標,可以根據(jù)企業(yè)實際情況和具體問題,有針對性地選擇具有可讀性的監(jiān)測指標。最后在指標分析中再結(jié)合常用的數(shù)據(jù)分析方法,如對比、平均、分組、回歸等,進行具體分析。任務(wù)實訓1.掃教材上對應(yīng)二維碼針對必備知識進行在線測試。2.針對任務(wù)描述中面試官的提問,聯(lián)系所學知識,小王應(yīng)該怎么回答呢?3.移動互聯(lián)網(wǎng)時代,微信、微博、抖音等新媒體非常紅火,新媒體運營中又以內(nèi)容運營為核心,其基本流程為“內(nèi)容收集→內(nèi)容編輯發(fā)布→用戶瀏覽→用戶點擊→用戶閱讀→用戶評論轉(zhuǎn)發(fā)”。請用數(shù)據(jù)分析中的指標化思維,為內(nèi)容運營流程中的每一步建立數(shù)據(jù)分析的指標。任務(wù)評價評價類目評價內(nèi)容及標準分值(分)自己評分小組評分教師評分學習態(tài)度全勤;(5分)10
遵守課堂紀律。(5分)學習過程
能說出本任務(wù)的學習目標,上課積極發(fā)言,積極回答問題(5分);20
能夠回答數(shù)據(jù)分析作用;(5分)能夠回答常用數(shù)據(jù)分析方法;(5分)能夠理解和回答數(shù)據(jù)分析思維模式。。(5分)學習結(jié)果“在線測試”選擇題和判斷題考評;(3分×10=30分)70
針對任務(wù)描述中小王數(shù)據(jù)數(shù)據(jù)分析思路斷的考評;(20分)建立數(shù)據(jù)分析指標的考評。(20分)合
計100
所占比例100%30%30%40%綜合評分
任務(wù)二運用大數(shù)據(jù)分析任務(wù)清單工作任務(wù)運用大數(shù)據(jù)分析教學模式任務(wù)驅(qū)動建議學時2課時教學地點一體化教室任務(wù)描述小王應(yīng)聘到某化妝品公司后,領(lǐng)導(dǎo)交給他一個任務(wù),目前公司想推出一款新產(chǎn)品面膜,但在進入市場前,需要分析市場的可行性以及產(chǎn)品的設(shè)計路線?,F(xiàn)在是大數(shù)據(jù)時代,要求小王運用大數(shù)據(jù)分析面膜市場的發(fā)展趨勢、需求情況、人群畫像等。小王應(yīng)該怎么做呢?要運用大數(shù)據(jù)分析,小王必須正確理解大數(shù)據(jù)分析、熟悉大數(shù)據(jù)分析方法和分析模型,掌握大數(shù)據(jù)分析工具的使用。任務(wù)目標理解大數(shù)據(jù)分析概念,認識它與傳統(tǒng)數(shù)據(jù)分析的不同;掌握大數(shù)據(jù)分析的常用方法;理解和掌握常用大數(shù)據(jù)分析模型;了解大數(shù)據(jù)分析的常用工具;能利用常用大數(shù)據(jù)分析技術(shù)進行大數(shù)據(jù)分析;能根據(jù)具體場景靈活選用大數(shù)據(jù)分析模型進行數(shù)據(jù)分析;養(yǎng)成良好的邏輯思維意識和數(shù)據(jù)分析習慣。。關(guān)鍵詞大數(shù)據(jù)分析方法、大數(shù)據(jù)分析模型、大數(shù)據(jù)分析工具知識必備一、認識大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析相比,大數(shù)據(jù)分析主要表現(xiàn)在以下四個方面的不同。第一,傳統(tǒng)數(shù)據(jù)分析一般都是基于結(jié)構(gòu)化、關(guān)系性的數(shù)據(jù),而且往往是取一個很小的數(shù)據(jù)集,來對整個數(shù)據(jù)進行預(yù)測和判斷。大數(shù)據(jù)分析,除了結(jié)構(gòu)化、關(guān)系性數(shù)據(jù)外,還可以處理半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),是對整個數(shù)據(jù)全集直接進行存儲和管理分析。第二,傳統(tǒng)數(shù)據(jù)分析是抽樣的小樣本分析,往往要用小樣本來預(yù)測整個數(shù)據(jù)全集的特性,這就決定了所采集的小樣本必須是高品質(zhì)的,否則預(yù)測出來的結(jié)果就會出現(xiàn)很大偏差。大數(shù)據(jù)分析,是對數(shù)據(jù)全集的分析,對數(shù)據(jù)的一些噪音有一定的包容性,不用考慮數(shù)據(jù)的分布狀態(tài),也不用考慮假設(shè)檢驗。知識必備一、認識大數(shù)據(jù)分析第三,傳統(tǒng)數(shù)據(jù)分析是根據(jù)小樣本數(shù)據(jù)的分析對全局數(shù)據(jù)進行分析和預(yù)測,在整個預(yù)測分析過程中往往采用因果關(guān)系的推理過程?,F(xiàn)在的大數(shù)據(jù)分析,因果關(guān)系并不是關(guān)注點,而是基于對整個數(shù)據(jù)全集的分析。對企業(yè)來說需要了解的是,關(guān)聯(lián)性的分析和規(guī)律性的特性。比如啤酒跟尿布的銷售同步上升,那么在大數(shù)據(jù)的分析下,我們不需要了解為什么啤酒和尿布的銷售量會同步增長,只需要知道尿布和啤酒是同步上升就可以了,基于這個結(jié)果,就可以制定很多商業(yè)策略和營銷手段。第四、大數(shù)據(jù)分析的數(shù)據(jù)往往是海量的,特別是很多新興的數(shù)據(jù),很具有時效性,打破了原先數(shù)據(jù)一定先搜集、清洗、存儲、然后進行分析的滯后手段。很多分析的需求往往是實時的,需要邊采集,邊分析?;ヂ?lián)網(wǎng)上人們留下的社交信息、地理位置信息、行為習慣信息、偏好信息等各種維度的信息都可以實時處理,這也是大數(shù)據(jù)分析的另一大特性。知識必備二、大數(shù)據(jù)分析的挑戰(zhàn)數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價值的增加,在進行分析之前如何迅速“提純”是大數(shù)據(jù)亟待解決的難題;大數(shù)據(jù)時代數(shù)據(jù)規(guī)模大,數(shù)據(jù)分析算法需要進行調(diào)整,需要解決算法的效率問題;大數(shù)據(jù)時代數(shù)據(jù)類型多而雜亂,僅靠傳統(tǒng)數(shù)據(jù)分析中的統(tǒng)計學已無能為力;數(shù)據(jù)結(jié)果好壞怎么去衡量。知識必備三、大數(shù)據(jù)分析方法(一)降維分析數(shù)據(jù)降維也被稱為數(shù)據(jù)規(guī)約或數(shù)據(jù)約減。它的目的就是為了減少數(shù)據(jù)計算和建模中涉及的維數(shù),目前主要有兩種數(shù)據(jù)降維思想:一種是基于特征選擇的降維,另一種是基于維度變換的降維。知識必備三、大數(shù)據(jù)分析方法(二)回歸分析回歸分析研究的是自變量X對因變量Y的數(shù)據(jù)分析。回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析被稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。根據(jù)影響是否是線性的,可以分為線性回歸和非線性回歸。知識必備三、大數(shù)據(jù)分析方法(三)聚類分析簡單來說,“物以類聚”這一成語就是聚類分析的基本思想。聚類分析法是大數(shù)據(jù)挖掘和測算中的每日基礎(chǔ)任務(wù),是將很多統(tǒng)計數(shù)據(jù)集中化具備“類似”特點的統(tǒng)計數(shù)據(jù)點區(qū)劃為一致類型,并最后轉(zhuǎn)化成好幾個類的方式。大量數(shù)據(jù)集中必須有相似的數(shù)據(jù)點,基于這一假設(shè),可以區(qū)分數(shù)據(jù),并且可以找到每個數(shù)據(jù)集的特證。知識必備三、大數(shù)據(jù)分析方法(四)分類分析分類算法是解決分類問題的一種方法,是數(shù)據(jù)挖掘、機器學習和模式識別的一個重要研究領(lǐng)域。分類在于根據(jù)其特性將數(shù)據(jù)“分門別類”,所以在許多領(lǐng)域都有廣泛的應(yīng)用。例如,在銀行業(yè)務(wù)中,可以構(gòu)建一個客戶分類模型,對客戶按照貸款風險的大小進行分類;在圖像處理中,分類可以用來檢測圖像中是否有人臉出現(xiàn);在手寫識別中,分類可以用于識別手寫的數(shù)字;在互聯(lián)網(wǎng)搜索中,網(wǎng)頁的分類可以幫助進行網(wǎng)頁的抓取、索引與排序。知識必備三、大數(shù)據(jù)分析方法(五)關(guān)聯(lián)分析自然界某種事物發(fā)生時其他事情也發(fā)生,這種聯(lián)系稱為關(guān)聯(lián)。關(guān)聯(lián)分析是一種簡單、實用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析的一個典型實例是購物籃分析。該實例通過發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習慣,了解哪些商品頻繁地被顧客同時購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。關(guān)聯(lián)分析其他的分析應(yīng)用還包括價目表設(shè)計、商品促銷、商品的擺放和基于購買模式的顧客劃分等。知識必備三、大數(shù)據(jù)分析方法(六)時間序列分析時間序列是一種用于研究數(shù)據(jù)隨時間變化的算法,是一種常用的回歸預(yù)測方法。其原則是事物的連續(xù)性。所謂連續(xù)性,是指客觀事物的發(fā)展具有規(guī)律性的連續(xù)性。事物的發(fā)展是按照其內(nèi)在規(guī)律進行的,在一定的條件下,只要規(guī)則作用的條件不發(fā)生質(zhì)的變化,事物的基本發(fā)展趨勢就會持續(xù)到未來。知識必備三、大數(shù)據(jù)分析方法(七)異常數(shù)據(jù)檢測在大多數(shù)數(shù)據(jù)挖掘或數(shù)據(jù)工作中,異常值將被視為“噪聲”,并在數(shù)據(jù)預(yù)處理過程中消除,以避免其對整體數(shù)據(jù)評估和分析挖掘的影響。然而,在某些情況下,如果數(shù)據(jù)工作的目標是關(guān)注異常值,這些異常值將成為數(shù)據(jù)工作的焦點。數(shù)據(jù)集中的異常數(shù)據(jù)通常被稱為異常點、異常值或孤立點等。典型的特征是這些數(shù)據(jù)的特征或規(guī)則與大多數(shù)數(shù)據(jù)不一致,表現(xiàn)出“異?!钡奶卣?。檢測這些數(shù)據(jù)的方法稱為異常檢測法。知識必備四、大數(shù)據(jù)分析模型行為事件分析模型主要用于研究某行為事件的發(fā)生對企業(yè)組織價值的影響以及影響程度。企業(yè)借此來追蹤或記錄用戶行為及業(yè)務(wù)過程,如用戶注冊、瀏覽產(chǎn)品詳情頁、成功投資、提現(xiàn)等,通過研究與事件發(fā)生關(guān)聯(lián)的所有因素來挖掘用戶行為事件背后的原因、交互影響等。(一)行為事件分析模型知識必備四、大數(shù)據(jù)分析模型行為事件分析具有強大的篩選、分組和聚合能力,邏輯清洗且使用簡單,已被廣泛應(yīng)用。行為事件分析一般包括事件定義與選擇、下鉆分析、解釋與結(jié)論等環(huán)節(jié):事件定義與選擇:用戶在某個時間點、某個地方、以某種方式完成某個具體的事件;下鉆分析:最高行為事件分析需要支持任意下鉆分析和精細化條件篩查;解釋與結(jié)論:需要對分析結(jié)果進行合理化的解釋和說明。(一)行為事件分析模型知識必備四、大數(shù)據(jù)分析模型例如,某互聯(lián)網(wǎng)金融客戶人員發(fā)現(xiàn),4月16日來自新浪渠道的PV數(shù)異常高,需要快速排查原因:是異常流量?還是虛假流量?企業(yè)可以先定義事件,通過“篩選條件”限定廣告系列來源為“新浪”。再從其它多個維度進行細分下鉆,比如“地理位置”、“時間”、“廣告系列媒介”、“瀏覽器等。當進行細分篩查時,虛假流量就無處遁形。(一)行為事件分析模型知識必備四、大數(shù)據(jù)分析模型漏斗分析是一套流程式數(shù)據(jù)分析,它能夠科學反映用戶行為狀態(tài)以及從起點到終點各階段用戶轉(zhuǎn)化率情況的重要分析模型。漏斗分析模型已經(jīng)廣泛成功用于流量監(jiān)控、產(chǎn)品目標轉(zhuǎn)化等日常數(shù)據(jù)運營與數(shù)據(jù)分析的工作中。漏斗分析模型是企業(yè)實現(xiàn)精細化運營、進行用戶行為分析的重要數(shù)據(jù)分析模型,其精細化程度影響著營銷管理的成敗,以及用戶行為分析的精準度。(二)漏斗分析模型知識必備四、大數(shù)據(jù)分析模型例如在一款產(chǎn)品服務(wù)平臺中,直播用戶從激活A(yù)PP開始到花費,一般的用戶購物路徑為激活A(yù)PP、注冊賬號、進入直播間、互動行為、禮物花費五大階段,漏斗能夠展現(xiàn)出各個階段的轉(zhuǎn)化率,通過漏斗各環(huán)節(jié)相關(guān)數(shù)據(jù)的比較,能夠直觀地發(fā)現(xiàn)和說明問題所在,從而找到優(yōu)化方向。對于業(yè)務(wù)流程相對規(guī)范、周期較長、環(huán)節(jié)較多的流程分析,非常實用。(二)漏斗分析模型知識必備四、大數(shù)據(jù)分析模型留存分析是一種用來分析用戶參與情況/活躍程度的分析模型。這是用來衡量產(chǎn)品對用戶價值高低的重要方法??疾爝M行初始行為的用戶中,有多少人會進行后續(xù)行為。一般來講,留存率是指【目標用戶】在一段時間內(nèi)【回到網(wǎng)站/APP中完成某個行為】的比例,即若滿足某個條件的用戶數(shù)為n,在某個時間點進行回訪行為的用戶數(shù)為m,那么該時間點的留存率就是m/n。常見的指標有次日留存率、七日留存率、次周留存率等。(三)留存分析模型知識必備四、大數(shù)據(jù)分析模型例如,游戲行業(yè)提升活躍、留存—如何精準找到玩家“流失點”?游戲的生命周期的時長差異、玩家的游戲粘度,直接體現(xiàn)了游戲的競爭能力和盈利能力。玩家對游戲的直觀感受、游戲難度曲線、游戲節(jié)奏的松弛、游戲福利等游戲內(nèi)涵都能夠?qū)е掠螒蛲婕伊魇?。正確找到玩家流失原因,是促進玩家、活躍挽留玩家的第一步。(三)留存分析模型知識必備四、大數(shù)據(jù)分析模型以一種特殊高亮的顏色形式顯示訪客熱衷的頁面區(qū)域和訪客所在的地理區(qū)域。顯示頁面或頁面組(結(jié)構(gòu)相同的頁面,如商品詳情頁、官網(wǎng)博客等)區(qū)域中不同元素點擊密度的圖示。包括元素被點擊的次數(shù)、占比、發(fā)生點擊的用戶列表、按鈕的當前與歷史內(nèi)容等因素。(四)點擊分析模型點擊圖是點擊分析方法的效果呈現(xiàn)。點擊分析具有分析過程高效、靈活、易用,效果直觀的特點。點擊分析采用可視化的設(shè)計思想與架構(gòu),簡潔直觀的操作方式,直觀呈現(xiàn)訪客熱衷的區(qū)域,幫助運營人員或管理者評估網(wǎng)頁的設(shè)計的科學性。知識必備四、大數(shù)據(jù)分析模型用戶路徑分析,顧名思義,用戶在APP或網(wǎng)站中的訪問行為路徑。為了衡量網(wǎng)站優(yōu)化的效果或營銷推廣的效果,以及了解用戶行為偏好,時常要對訪問路徑的轉(zhuǎn)換數(shù)據(jù)進行分析。(五)用戶行為路徑分析模型知識必備四、大數(shù)據(jù)分析模型以電商為例,買家從登錄網(wǎng)站/APP到支付成功要線經(jīng)過首頁瀏覽、搜索商品、加入購物車、提交訂單、支付訂單等過程。而在用戶真實的選購過程是一個交纏反復(fù)的過程,例如提交訂單后,用戶可能會返回首頁繼續(xù)搜索商品,也可能去取消訂單,每一個路徑背后都有不同的動機。與其他分析模型配合進行深入分析后,能為找到快速用戶動機,從而引領(lǐng)用戶走向最優(yōu)路徑或者期望中的路徑。用戶的路徑分析中,比較常見的可視化呈現(xiàn),就是?;鶊D。(五)用戶行為路徑分析模型知識必備四、大數(shù)據(jù)分析模型針對產(chǎn)品的用戶運營,會用到分群分析的方法。用戶分群,就是通過一定的規(guī)則找到對應(yīng)的用戶群體。實際使用中,可以根據(jù)不同業(yè)務(wù)需要定義群組,常用的方法包括:找到做過某些事情的人群:比如過去7天完成過3次購物車計算;有某些特定屬性的人群:比如年齡在25歲以下的男性;在轉(zhuǎn)化過程中流失的人群:比如提交了訂單但沒有付款。(六)用戶分群分析模型知識必備四、大數(shù)據(jù)分析模型分布分析是用戶在特定指標下的頻次、總額等的歸類展現(xiàn)。它可以展現(xiàn)出單用戶對產(chǎn)品的依賴程度,分析客戶在不同地區(qū)、不同時段所購買的不同類型的產(chǎn)品數(shù)量、購買頻次等,幫助運營人員了解當前的客戶狀態(tài),以及客戶的運轉(zhuǎn)情況。如訂單金額(100以下區(qū)間、100元-200元區(qū)間、200元以上區(qū)間等)、購買次數(shù)(5次以下、5-10次、10以上)等用戶的分布情況。(七)分布分析模型分布分析模型的功能與價值:科學的分布分析模型支持按時間、次數(shù)、事件指標進行用戶條件篩選及數(shù)據(jù)統(tǒng)計。為不同角色的人員統(tǒng)計用戶在一天/周/月中,有多少個自然時間段(小時/天)進行了某項操作、進行某項操作的次數(shù)、進行事件指標。知識必備四、大數(shù)據(jù)分析模型用戶屬性分析根據(jù)用戶自身屬性對用戶進行分類與統(tǒng)計分析,屬性分析是實現(xiàn)用戶行為精細化運營的必備分析方法之一。比如查看用戶數(shù)量在注冊時間上的變化趨勢、查看用戶按省份的分布情況。用戶屬性涉及用戶信息,如姓名、年齡、家庭、婚姻狀況、性別、最高教育程度等自然信息,也有產(chǎn)品相關(guān)屬性,如用戶常駐省市、用戶等級、用戶首次訪問渠道來源等。屬性分析主要價值體現(xiàn)在豐富用戶畫像維度,讓用戶行為洞察粒度更細致。科學的屬性分析方法,對于所有類型的屬性都可以將“去重數(shù)”作為分析指標,數(shù)值類型的屬性可以將“總和”“均值”“最大值”“最小值”作為分析指標,添加多個維度。數(shù)字類型的維度可以自定義區(qū)間,方便進行更加精細化的分析。(八)屬性分析模型知識必備五、大數(shù)據(jù)分析工具用于展現(xiàn)分析的前端開源工具有Hadoop、JasperSoft、Pentaho、Spagobi、Openi、Birt等等。用于展現(xiàn)分析商用分析工具有StyleIntelligence、RapidMinerRadoop、Cognos、BO、Excel、MicrosoftPowerBI、Oracle、Microstrategy、QlikView。國內(nèi)的有BDP、國云數(shù)據(jù)(大數(shù)據(jù)魔鏡)、思邁特、FineBI等等。數(shù)據(jù)倉庫有TeradataAsterData、EMCGreenPlum、HPVertica等等。數(shù)據(jù)集市有QlikView、Tableau、StyleIntelligence等等。(一)大數(shù)據(jù)分析的軟件工具知識必備五、大數(shù)據(jù)分析工具好用的大數(shù)據(jù)分析平臺有百度指數(shù)、微信指數(shù)、微博指數(shù)、生意參謀、360趨勢、京東商智、頭條指數(shù)、飛瓜數(shù)據(jù)等等。這些大數(shù)據(jù)分析平臺每一個都對應(yīng)一個海量用戶的商業(yè)平臺,平臺本身已經(jīng)針對大數(shù)據(jù)分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 淺論多媒體在計算機教學中的應(yīng)用
- 《新能源材料專業(yè)英語》教學大綱
- 禮儀課題文檔
- 教案 均值不等式教案
- 玉溪師范學院《土地生態(tài)學》2023-2024學年第一學期期末試卷
- 名著經(jīng)典語錄摘要
- 婚姻家庭繼承法教案
- 電影放映機賬務(wù)處理實例-記賬實操
- 房地產(chǎn) -太平山文旅開發(fā)規(guī)劃方案融合運營規(guī)劃提案
- 2024年空氣清新香片項目綜合評估報告
- ISO27001:2022信息安全管理手冊+全套程序文件+表單
- 八年級歷史上冊材料題集錦(含答案)
- 國開電大2022年《小學數(shù)學教學研究》形考任務(wù)1-4答
- GB/T 30790.5-2014色漆和清漆防護涂料體系對鋼結(jié)構(gòu)的防腐蝕保護第5部分:防護涂料體系
- 白蛋白臨床不合理應(yīng)用及其使用指征
- 中小學教師資格考試成績復(fù)核申請表
- 五年級上冊英語課件M6U1 You can play football well
- 心肌疾病-第九版內(nèi)科學課件
- 機械制圖標準件和常用件講義課件
- 工作人員應(yīng)對火災(zāi)現(xiàn)場應(yīng)急處置卡
- 單分子免疫檢測課件
評論
0/150
提交評論