大數據概論及應用實踐 課件 第四章數據存儲與管理_第1頁
大數據概論及應用實踐 課件 第四章數據存儲與管理_第2頁
大數據概論及應用實踐 課件 第四章數據存儲與管理_第3頁
大數據概論及應用實踐 課件 第四章數據存儲與管理_第4頁
大數據概論及應用實踐 課件 第四章數據存儲與管理_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章

數據存儲與管理大數據概論及應用實踐IntroductiontoBigDataandApplicationPractice第4章

數據存儲與管理數據存儲與管理是大數據分析應用的關鍵一環(huán)。通過數據采集獲取的數據,必須進行有效的存儲和管理,采用高效的處理和分析。特別是在當下大數據時代,一方面,數據類型越來越多,包括結構化數據、半結構化數據和非結構化數據;另一方面,涉及的數據量越來越龐大,已經超出了傳統的數據存儲與管理技術的范疇,數據存儲與管理面料這巨大的挑戰(zhàn)。因此,催生了新一代的數據存儲與管理技術,包括文件系統和分布式數據庫等。本章首先介紹了傳統的數據存儲和管理技術,然后介紹了大數據時代的數據存儲和管理技術,同時給出了對應的代表性技術和產品的介紹。目錄CONTENTS存儲管理技術的發(fā)展4.1傳統的存儲和管理技術4.2大數據時代的存儲和管理技術4.3拓展實訓4.4本章小結4.5習題4.6

數據采集(DataAcquisition,DAQ)也稱為數據獲取或數據收集,是指利用不同的設備和技術通過一系列的流程自動采集數據,并傳到存儲空間中進行分析、處理的過程。概

述PART014.1

存儲管理技術的發(fā)展對于通過多源異構采集到的大量數據,只有科學的存儲、高效的管理才能夠最大程度地發(fā)揮它們的價值。在最初設計的初衷是通過收集到的數據進行復雜的科學計算。但是隨著技術的發(fā)展和數據的大量增長,應用也越來越廣泛,對存儲管理的要求也就越來越高。總體來說,數據存儲和管理技術的發(fā)展經歷了以下幾個階段:人工管理階段、文件系統階段、數據庫系統管理階段、大數據管理階段。如圖4-1所示存儲管理技術的發(fā)展。圖4-1存儲管理技術的發(fā)展4.1

存儲管理技術的發(fā)展1.人工管理階段人工管理階段是指20世紀50年代中期以前。當時計算機的軟硬件技術都不完善,在硬件方面,存儲設備主題語磁帶、卡片和紙帶,沒有大容量的存儲器;在軟件方面,沒有操作系統和管理數據的軟件。這一階段的數據處理方式是批處理,而且基本上是依賴于人工。人工管理階段具有如下特點。(1)數據不能長期保存,用完就刪除。(2)數據的管理由應用程序完成。應用程序不僅要規(guī)定數據的邏輯結構,還要設計數據的存儲結構、存儲方法等。(3)數據面向應用,不能共享。一組數據只能對應一個應用程序。當多個應用程序涉及某些相同數據時,必須各自定義,無法共享,由此產生了大量的冗余數據。(4)數據不獨立。當數據的物理結構或邏輯結構發(fā)生變化時,只能依靠對應的應用程序來修改。4.1

存儲管理技術的發(fā)展2.文件系統階段文件系統階段是指在20世紀50年代后期到60年代中期。硬件方面,可以使用磁盤、磁鼓等可以直接存取的存儲設備;軟件方面,有了專門管理數據的軟件,也就是文件系統。不僅能夠對數據進行批處理,而且能夠聯機實時處理。文件系統階段具有如下特點。(1)數據實現了長期保存。(2)由文件系統管理數據。文件系統把數據組織成相互獨立的文件,采用“按文件名訪問,按記錄存取”的技術對文件進行各種操作,很大程度上減少了維護應用程序的工作量。(3)數據共享率低,冗余度高。在文件系統中,文件仍然是面向應用程序的,不能共享相同的數據。這部分相同數據重復存儲和獨立管理極易導致數據的不一致,給數據的修改和維護帶來很大的困難。(4)數據獨立性差。文件系統中的文件是為某一特定的應用程序服務的,數據和應用程序是相互依賴的,要想改變數據的邏輯結構也要相應地修改應用程序和文件結構的定義;對應用程序的修改,也會引起文件結構的改變。4.1

存儲管理技術的發(fā)展3.數據庫系統階段數據庫系統階段是指20世紀60年代后期。這一時期,計算機硬件技術迅猛發(fā)展,大容量磁盤、磁盤陣列等基本的數據存儲技術日趨成熟,同時價格也在不斷下降;軟件方面,編制和維護系統軟件及應用程序所需的成本也在不斷增加;處理方式上,聯機實時處理要求更多;為了滿足這些要求,共享性高,冗余度地,程序與數據之間具有一定的獨立性,數據庫這樣的數據管理技術應運而生,對數據進行統一控制。數據庫系統階段具有如下特點。(1)數據結構化。在描述數據時不僅要描述數據本身,還有描述數據之間的聯系。(2)數據共享性高、冗余少且易擴充。數據不再是針對某一個應用,而是面向整個系統,能更好地保證數據的安全性和完整性。(3)數據獨立性高。應用程序與數據庫中的數據相互獨立,簡化了應用程序的編制,大大減少了應用程序的維護帶來的開銷。4.1

存儲管理技術的發(fā)展4.大數據管理階段大數據管理管理階段是2008年8月提出來的。在這一時期,由于信息技術的高度發(fā)展,信息系統所積累的數據越來越多,數據類型也越來越豐富,而且產生的速度非???。傳統的數據庫技術“存不下”、無法建模、無法及時入庫等問題凸顯出來,難以滿足應用的需要。大數據管理階段具有如下特點。(1)大數據管理系統的數據特征可以用4V來刻畫,就是大容量(volume)、多類型(variety)、快變化(volocity)和低質量(veracity)。這既是對大數據特征的刻畫,也是對大數據管理系統提出的新的要求。(2)大數據管理系統的系統特征歸納起來有5個,也就是開放的、多模型并存的、高可用性和分布式可擴展性的、量質融合的、核心中心是知識管理。(3)大數據管理系統的應用特征有3個方面值得關注,

以對象為中心進行數據組織實現數據匯聚、以第四范式為解決問題的新模式、以機器學習為主要應用類型。PART02傳統的存儲和管理技術

傳統的數據存儲與管理技術包括文件系統、關系數據庫、數據倉庫和并行數據庫。4.2.1

文件系統

文件系統是操作系統用于明確存儲設備(常見的是磁盤,也有基于NANDFlash的固態(tài)硬盤)或分區(qū)上的文件的方法和數據結構;即在存儲設備上組織文件的方法。操作系統中負責管理和存儲文件信息的軟件機構稱為文件管理系統,簡稱文件系統。文件系統由三部分組成:文件系統的接口,對對象操縱和管理的軟件集合,對象及屬性。從系統角度來看,文件系統是對文件存儲設備的空間進行組織和分配,負責文件存儲并對存入的文件進行保護和檢索的系統。具體地說,它負責為用戶建立文件,存入、讀出、修改、轉儲文件,控制文件的存取,當用戶不再使用時撤銷文件等。我們常見的Word文件、PPT文件、Txt文件、音頻文件、視頻文件等,都是由操作系統中的文件系統進行統一管理的。4.2.2關系數據庫

除了文件系統以外,數據庫是另外一種常用的數據存儲和管理技術。簡單來說,數據庫就是存放有組織、可共享的相關數據的倉庫。而對數據庫進行統一管理和控制的的軟件稱之為“數據庫管理系統”。目前比較常用的是關系型數據庫,它采用了關系模型來組織數據的數據庫,以二維表格的方式,通過行和列的形式存儲數據。目前市場上比較常見的關系數據產品包括MySQL、SQLServer、Oracle、DB2等,這類數據苦的數據通常具有規(guī)范的結構,通常用來存儲結構化數據。4.2.3數據倉庫

數據倉庫是面向主題的、集成的、相對穩(wěn)定的、反應歷史變化的數據集合,用于支撐決策管理。(1)面向主題。數據倉庫中的數據是按照一定的主題進行組織。主題是指用戶使用數據倉庫進行決策時所關心的重點方面,與多個信息系統關聯。(2)集成的。數據倉庫的數據來自多源異構,將所需數據從原來的數據中抽取出來,進行清洗集成后才能進入數據倉庫。(3)相對穩(wěn)定。數據倉庫是不可更新的,主要是為決策分析提供數據的。(4)反映歷史變化。構建數據倉庫時,是定期從數據源抽取數據并加載到數據倉庫的。4.2.4并行數據庫

并行數據庫是指從無共享的體系結構中進行數據操作的的數據庫管理系統。系統中采用了2個關鍵技術:關系表的水平劃分和SQL查詢的分區(qū)執(zhí)行。并行數據庫系統通過多個節(jié)點并行執(zhí)行數據庫任務,從而提高性能和可用性。但是并行數據庫也存在明顯的缺點,一是沒有較好的彈性。在設計初期,集群的節(jié)點數量是固定的,若需進行擴展和收縮,則必須制定周全的遷移計劃,代價比較大,還會導致某段時間內系統不可用。二是容錯性較差。如果在查詢過程中節(jié)點發(fā)生故障,那么整個查詢都要從頭開始執(zhí)行,在擁有數千個節(jié)點的集群上處理時間較長。因此只適合資源需求相對固定的應用程序。PART03大數據時代的存儲和管理技術

本節(jié)主要介紹包括分布式文件系統、非結構化數據庫、云數據庫等新型是數據庫產品。4.3.1

分布式文件系統分布式文件系統是一種通過網絡實現文件在多臺主機上進行分布式存儲的文件系統。HDFS(HadoopDistributedFileSystem)分布式文件系統是目前應用比較廣泛的一種系統。它實現了分布式文件系統的基本思想,通過支持流數據讀取和處理超大規(guī)模文件,并能夠運行在普通服務器組成的集群上,這樣硬件報錯出在普通服務器上集群中是一種常態(tài)而不是異常。HDFS在設計時就采取了多種機制保證在硬件出錯的環(huán)境中實現數據的完整性。下面介紹HDFS體系結構、設計目標和存儲策略。4.3.1分布式文件系統1.體系結構HDFS采用了主從(Master/Slave)結構模型,一個HDFS集群包括一個名稱節(jié)點和若干個數據節(jié)點。4.3.1分布式文件系統2.設計目標HDFS要實現以下目標。(1)兼容廉價的硬件設備。HDFS設計了快速檢查硬件故障和進行自動恢復的機制,可以實現持續(xù)監(jiān)視、錯誤檢查、容錯處理和自動恢復,從而在見見出差的的情況下也能實現數據的完整性。(2)流數據讀寫。為了提高數據吞吐率,HDFS在設計時為了滿足批量數據處理的要求,放松了一些POSIX的要求,從而能夠以流式方式來訪問文件系統數據。(3)大數據集。HDFS中的文件通??梢赃_到GB甚至TB級別,一個數百臺服務器組成的集群可以支持千萬級別的文件。(4)簡單單位文件模型。HDFS采用了“一次寫入,多次讀取”的簡單文件模型,文件一旦完成寫入,關閉后就無法再次寫入,只能被讀取。(5)強大的跨平臺兼容性。HDFS是采用Java實現的,具有很好的跨平臺的兼容性,支持JVM的機器都可以運行HDFS。4.3.1分布式文件系統2.設計目標HDFS在實現上述優(yōu)良特許的同時,也存在一些應用局限性,主要包括以下幾個方面。(1)兼容廉價的硬件設備。(1)不適合訪問低延遲數據。HDFS具有較高的延遲,因此,需要低延遲(如數十毫秒)時,就無法滿足了訴求,此時,HBase是一個更好的選擇。(2)無法高效存儲海量小文件。小文件是指文件大小小于一個塊的的文件。首先,HDFS采用名稱節(jié)點來管理文件系統的元數據,這些元數據被保存在內存中,從而使客戶端可以快速獲取文件時間存儲位置。但是如果文件數量擴展至數十億,需要花費較多的時間找到一個文件的時間存儲位置。其次,用MapReduce處理大量小文件時,會產生過多的Map任務,速度會遠遠低于處理同等規(guī)模的大文件的速度。(3)不支持多用戶寫入及任意修改文件。HDFS只允許一個文件有一個寫入者,不允許多個用戶對同一個文件執(zhí)行寫操作,而且只允許文件執(zhí)行追加操作,不能執(zhí)行隨機寫操作。4.3.1分布式文件系統3.存儲策略為了保證系統的容錯性和可用性,HDFS采用了多副本方式對數據進行冗余存儲,通常一個數據塊的多個副本被分配到不同的數據節(jié)點。大型HDFS實例通常運行在闊月多個機架的計算機組成的集群上,不同機架的兩臺機器直接的通信需要經過交換機,這樣會增加數據數據傳輸成本。大多數情況下,同一個機架內的兩臺機器間的帶寬會比不同機架的兩臺機器間的帶寬大。HDFS一旦啟動,一方面通過一個機架感知的過程,NameNode可以確定每個DataNode所屬的機架ID。如右圖4-4所示的HDFS存儲策略。圖4-4HDFS存儲策略4.3.2非結構化數據庫在大數據時代,數據形式多樣,如辦公文檔、文本、圖片、XML文檔、HTML文檔、各類報表、圖像音頻和視頻等,這些數據的數據結構不規(guī)則或不完整,沒有預定義的數據模型,不適用傳統的關系型數據庫來存儲,因此對這些數據進行存儲、檢索、發(fā)布及應用需要專用的技術,如海量存儲、智能檢索、知識挖掘、內容保護、信息的增值開發(fā)利用等。因此,在這種背景下,非結構化數據庫(NoSQL)應運而生。NoSQL(NotonlySQL)數據是非關系型的一類數據庫系統的統稱。它是針對各個類型數據的存儲和訪問特點而專門設計的數據庫管理系統。4.3.2非結構化數據庫NoSQL數據庫通過采取一些新的設計原則,利用大規(guī)模集群實現對大數據的有效管理。主要體現在三個方面。(1)采用橫向擴展的方法,通過對大量節(jié)點的并行處理,獲得極高的數據處理性能和吞吐能力。(2)放棄嚴格的ACID一致性約束,允許數據暫時出現不一致的情況,并接受最終一致性。(3)對數據進行容錯處理。對數據庫進行備份,應對異常情況,保證數據穩(wěn)定高可靠地運行。4.3.2非結構化數據庫歸結起來,典型的NoSQL數據庫通常包括鍵值數據庫、列族數據庫、文檔數據庫、圖數據庫和時序數據庫五大類。如表4-2所示數據庫對比關系圖。4.3.2非結構化數據庫1.鍵值數據庫鍵值數據庫是最常見和最簡單的NoSQL數據庫,它的數據是以鍵值對集合的形式存儲在服務器節(jié)點上,其中鍵作為唯一標識符。鍵值數據庫是高度可分區(qū)的,并且允許以其他類型數據庫無法實現的規(guī)模進行水平擴展。通常情況下,鍵值數據庫會使用哈希表,這個表中有一個特定的Key和一個指針指向特定的Value。Key可以用來定位Value,即存儲和檢索具體的Value。Value對數據庫是透明不可見的,不能對Value進行索引和查詢,只能通過Key進行查詢。4.3.2非結構化數據庫2.列族數據庫列存儲是按列隊數據進行存儲的,數據存儲在列族中。存儲在一個列族中的數據通常是被一起查詢的相關數據,從而大大提升了查詢效率。列族數據庫一般采用的列族數據模型,數據庫由多個行組成,每行數據包含多個列族,不同的行可以具有不同數據的列族,屬于同一列族的數據會被存放在一起。每行數據通過行鍵進行定位,與這個行鍵對應的是一個列族。從這個角度來看,列族數據庫可以被視為一個鍵值數據庫。列族可以配置成職稱不同類型的訪問模式,一個列族也可以被設置成放入內存,以消耗內存為代價換取更好的響應性能。Hbase是列族數據庫代表性的一款產品。它具有高擴展性,可以支持超大規(guī)模的數據存儲,它可以通過橫向擴展的方法,可以廉價的計算機集群處理由超過10億行數據和數百萬列元素組成的數據表。4.3.2非結構化數據庫3.文檔數據庫文檔數據庫是一種專門用來存儲管理文檔的數據庫模型。文檔是數據庫的最小單位。大多數文檔以某種標準化格式封裝并對數據進行加密,同時采用多種格式進行解碼,包括XML、YAML、JSON和BSON等,或者也可以使用二進制格式進行解碼(如pdf、office文檔等)。文檔數據庫通過鍵來定位一個文檔,基于文檔內容來構建索引。MongoDB是文檔數據庫的一款代表產品。它是基于分布式文件存儲的文檔數據庫,介于關系數據庫和非關系數據庫之間。MongoDB支持的數據結構非常松散,因此可以存儲比較復雜的數據類型。MongoDB最大的特點是支持的查詢語言非常強大,語法有點類似于面向對象的查詢語言,幾乎可以實現類似關系數據庫單表查詢的絕大部分功能,而且支持對數據建立索引。4.3.2非結構化數據庫4.圖數據庫圖數據庫用于專門存儲具有節(jié)點和邊的圖結構數據的一類數據庫,并以節(jié)點和邊作為基本數據模型。節(jié)點可以代表數據模型中的重要的實體或信息條目,節(jié)點之間的關系以邊的形式表示。圖數據庫專門用于處理具有高度相互關聯關系的數據,可以高效地處理實體之間的關系,比較適合于社交網絡、模式識別、推薦系統以及路徑尋找等問題。圖書庫在處理圖和關系這些領域具有很好的性能,在其他領域,性能遠遠不足。4.3.3幾款新型數據庫產品介紹1.云數據庫(1)概念云數據庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎架構的數據庫,部署在云計算環(huán)境中的虛擬化數據庫。它極大地增強了數據庫的存儲能力,同時虛擬化了許多后端功能。云數據庫具有高可擴展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點。在云數據庫中,所有數據庫功能都是在“云端”提供的,客戶端可以通過網絡遠程使用數據庫提供的服務,如圖4-5所示。客戶端不需要了解云數據庫的底層細節(jié),所有的底層硬件都已經虛擬化,對客戶端而言是透明的,客戶端就像在使用一個運行在單一服務器上的數據庫一樣,非常方便,同時可以獲得理論上近乎無限的存儲和處理能力。4.3.3幾款新型數據庫產品介紹需要指出的是,有人把云數據庫列入PaaS的范疇,也有人認為數據庫本身是一種應用軟件,因此把云數據庫劃入SaaS。本書把云數據庫劃入SaaS。實際上,云計算IaaS、PaaS和Saas這3個層次之間的界限有些時候也不是非常清晰,對于云數據庫而言,最重要的是它允許用戶以服務的方式通過網絡獲得云端的數據。4.3.3幾款新型數據庫產品介紹(2)特性云數據庫具有以下特性。①動態(tài)可擴展。理論上,云數據庫具有無限可擴展性,可以滿足不斷增加的數據存儲需求。在面對不斷變化的條件時,云數據可以表現出很好的彈性。②高可用性。云數據庫不存在單點失效問題。如果一個節(jié)點失效了,剩余的節(jié)點就會接管未完成的事務。而且,在云數據庫中,數據通常是冗余存儲的,在地理上也是分散的。比如,華為云等大型云計算供應室,具有分布在世界范圍內的數據中心,通過在不同地理區(qū)間內進行數據輔助,提供高水平的容錯能力。③較低的使用代價。云數據庫廠商通常采用多租戶的形式,同時為多個用戶提供服務,這種共享資源的形式對于用戶而言可以節(jié)省開學,而且用戶采用“按需付費”的方式使用云計算環(huán)境中的各種資源,不會產生不必要的資源浪費。4.3.3幾款新型數據庫產品介紹(2)特性云數據庫具有以下特性。④易用性。用戶只需要一個有效的鏈接字符串(URL)就可以開始使用云數據庫,而且就像使用本地數據庫一樣。⑤高性能。云數據庫采用大型分布式存儲服務集群,支撐海量數據訪問,多機房自動冗余備份,自動讀寫分離。⑥免維護。用戶不需要關注后端機器及數據庫的穩(wěn)定性、網絡問題、機房災難、單庫壓力等各種風險,云數據庫服務商提供“7*24h”的專業(yè)服務,擴容和遷移對用戶不透明且不影響服務,并且可以提供全方位、全天候立體式的監(jiān)控。⑦安全。云數據庫提供數據隔離,不同應用的數據會存在于不同的數據庫中而不會相互影響;提供安全性檢查,可以及時發(fā)現并拒絕惡意攻擊性方位。4.3.3幾款新型數據庫產品介紹(3)代表產品云數據庫供應商主要分為三類:①傳統的數據庫廠商,如Oracle、DB2、SQLServer等;②涉足數據庫市場的云數據庫廠商,如阿里云RDS、百度云數據庫、騰訊云數據庫;③新興廠商,如Vertica、LongJump、EnterpriseDB。4.3.3幾款新型數據庫產品介紹2.HBase數據庫(1)概念Hbase是一個高可靠、高性能、面向列、可伸縮的分布式數據庫,主要用來存儲非結構化和半結構化的數據。HBase的目標是處理非常龐大的表,可以通過橫向擴展的方式,利用廉價計算機集群處理超過10億行數據和數百萬列元素組成的數據表。因此,Hbase時間上就是一個稀疏、多為、持久化存儲的映射表,它采用行鍵(RowKey)、列族(ColumnFamily)、列限定符(ColumnQualifier)和時間戳(Timestamp)進行索引,每個值都是未經解釋的字節(jié)數組。4.3.3幾款新型數據庫產品介紹下面通過一個實例來闡述Hbase的數據模型。圖4-6是一張用來存儲學生信息的Hbase表,學號作為行鍵來唯一標識每個學生,列族Info來保存學生相關信息,列族Info中包含3個列——name、major和email,分別用來保存學生的姓名、專業(yè)和郵箱。在Hbase數據中,數據是逐個單元格寫入的,圖4-6一張用來存儲學生信息的Hbase表4.3.3幾款新型數據庫產品介紹(2)HBase系統架構如圖4-7所示為Hbase的系統架構圖,包括客戶端、ZooKeeper服務器、Master主服務器、Region服務器。特別說明的是,Hbase一般采用HDFS作為底層數據存儲系統,因此在系統架構圖中增加了HDFS和Hadoop。圖4-7HBase的系統架構4.3.3幾款新型數據庫產品介紹3.GoogleSpanner(1)概念Spanner是一個可擴展的、全球分布式的數據庫,由Google設計、開發(fā)和部署。通俗的講,它就是一個數據庫,把數據分片存儲在許多Paxos狀態(tài)機上,這些機器位于遍布全球的數據中心內。復制技術可以用來服務于全球可用性和地理局部性。客戶端會自動在副本之間進行失敗恢復。隨著數據的變化和服務器的變化,Spanner會自動把數據進行重新分片,從而有效應對負載變化和處理失敗。Spanner被設計成可以擴展到幾百萬個機器節(jié)點,跨越成百上千個數據中心,具備幾萬億數據庫行的規(guī)模。應用可以借助于Spanner來實現高可用性,通過在一個地區(qū)的內部和跨越不同的地區(qū)之間復制數據,保證即使面對大范圍的自然災害時數據依然可用。4.3.3幾款新型數據庫產品介紹3.GoogleSpanner(2)特性Spanner提供了很好的特性。

第一,在數據的副本配置方面,應用可以在一個很細的粒度上進行動態(tài)控制。應用可以詳細規(guī)定,哪些數據中心包含哪些數據,數據距離用戶有多遠(控制用戶讀取數據的延遲),不同數據副本之間距離有多遠(控制寫操作的延遲),以及需要維護多少個副本(控制可用性和讀操作性能)。數據也可以被動態(tài)和透明地在數據中心之間進行移動,從而平衡不同數據中心內資源的使用。

第二,Spanner提供了讀和寫操作的外部一致性,以及在一個時間戳下面的跨越數據庫的全球一致性的讀操作。這些特性使得Spanner可以支持一致的備份、一致的MapReduce執(zhí)行和原子模式變更,所有都是在全球范圍內實現,即使存在正在處理中的事務也可以。4.3.3幾款新型數據庫產品介紹3.GoogleSpanner(3)Spanner服務器的組織形式圖4-8顯示了在一個Spanner的Universe中的服務器。一個Zone包括一個Zonemaster,和一百至幾千個Spanserver。Zonemaster把數據分配給Spanserver,Spanserver把數據提供給客戶端。客戶端使用每個Zone上面的Locationproxy來定位可以為自己提供數據的Spanserver。Universemaster是一個控制臺,它顯示了關于Zone的各種狀態(tài)信息,可以用于相互之間的調試。Placementdriver會周期性地與Spanserver進行交互,來發(fā)現那些需要被轉移的數據,或者是為了滿足新的副本約束條件,或者是為了進行負載均衡。圖4-8Spanner服務器的組織方式

數據存儲與管理-企業(yè)指標綜合評價拓展實訓PART04數據存儲與管理-企業(yè)指標綜合評價

案例介紹:

F公司是一家生產制造業(yè)企業(yè),成立于1991年,是從事專業(yè)柴油機的研發(fā)、生產和制造的大型集團企業(yè)。2010年以來,隨著F公司產業(yè)規(guī)模的升級,企業(yè)的經營狀況有明顯的改善,因F公司之前采用傳統的財務數據分析,這種數據分析不能完整的展現公司經營狀況。針對于目前財務數據分析的現狀,公司領導決定由財務部牽頭構建財務數據分析的數據倉庫。4.4

拓展實訓(一)案例實驗步驟一(數據采集)(1)創(chuàng)建維表參照表實4-1,在DMP“【數據加工廠】-【設計區(qū)】-【工廠分層】-【ODS操作數據】”路徑下新建主題域和主題,通過“創(chuàng)建自定義模型(全部字段需要手動定義)”的方式創(chuàng)建指定名稱的表?!静僮鞑襟E】參照同第3章企業(yè)員工360度信息整合案例實驗步驟二相同4.4

拓展實訓(二)案例實驗步驟二(數據處理)(1)創(chuàng)建數據模型參照表實4-5,在DMP“【數據加工廠】-【設計區(qū)】-【工廠分層】-【DW數據倉庫】”路徑下主題,通過“創(chuàng)建自定義模型(全部字段需要手動定義)”方式創(chuàng)建指定名稱的模型。【操作步驟】第一步,執(zhí)行【數據加工廠】-【設計區(qū)】-【工廠分層】-【DW數據倉庫】,選中DW數據倉庫,右鍵點擊“新建主題域”。第二步,選中第一步新建的主題域,右擊“新建主題”。第三步,在第二步新建的主題下,點擊“模型管理”模塊,點擊“添加模型”,根據表實4-6信息增加字段名、別名、長度、精度,選擇“數據類型”“是否為空”“是否主鍵”內容,增加完成點擊“完成”。4.4

拓展實訓(2)數據抽取參照表實4-7,在DMP“【數據加工廠】-【設計區(qū)】-【工廠分層】-【DW數據倉庫】-【ETL轉換】”路徑下創(chuàng)建指定名稱的分組和ETL轉換。【操作步驟】第一步,執(zhí)行【數據加工廠】-【設計區(qū)】-【工廠分層】-【DW數據倉庫】-【ETL轉換】,右鍵點擊ETL轉換,選擇“新建分組”。第二步,在第一步新建的分組下,根據表實4-7信息,右鍵點擊新建分組。第三步,在第二步新建分組下,右鍵點擊“新建ETL轉換”。第四步,在打開的ETL轉換界面,根據表實4-9信息選擇自己所需的組件并連接,設置好所有組件后保存并運行。4.4

拓展實訓(三)案例實驗步驟三(數據應用)(1)創(chuàng)建模型參照表實4-10,在DMP“【數據加工廠】-【設計區(qū)】-【工廠分層】-【DM數據集市】”路徑下新建主題域和主題,通過“創(chuàng)建自定義模型(全部字段需要手動定義)”方式創(chuàng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論