數據倉庫原理與實踐 課件 第5章 數據集成與存儲_第1頁
數據倉庫原理與實踐 課件 第5章 數據集成與存儲_第2頁
數據倉庫原理與實踐 課件 第5章 數據集成與存儲_第3頁
數據倉庫原理與實踐 課件 第5章 數據集成與存儲_第4頁
數據倉庫原理與實踐 課件 第5章 數據集成與存儲_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第5章數據集成與存儲

5.1大數據來源

5.2數據采集

5.3數據集成

5.4數據存儲引例思考面對海量的數據,要對數據進行有效利用,如何采集數據并存儲數據,對企業(yè)來說是一種挑戰(zhàn)。請思考:(1)如何完成海量數據的數據采集流程?(2)各種異構數據如何進行數據集成?(3)海量數據如何存儲?數據集成與存儲數據集成數據采集數據存儲大數據來源5.1數據來源關系型數據庫RMDB數據文件(日志)NoSQL數據庫離線數據源消息隊列MQ網絡數據其他...實時數據源其他...大數據的數據來源非常廣泛且多樣,涵蓋了交易數據、互聯網數據、移動設備數據、傳感器數據、視頻和音頻數據、開放數據以及人為數據等多個方面。這些數據的收集和分析對于推動社會經濟發(fā)展、提升政府治理能力、改善人民生活水平等方面具有重要意義。

大數據按照數據結構可以分為結構化數據、半結構化數據和非結構化數據三大類。(1)結構化數據是指可以以固定格式存儲、訪問和處理的數據。它通常遵循嚴格的數據格式與長度規(guī)范,并通過關系型數據庫進行存儲和管理。(2)半結構化數據是介于結構化數據和非結構化數據之間的一種數據類型。它具有一定的結構性,但這種結構并不嚴格遵循關系型數據庫的表結構,而是以一種更加靈活的方式組織數據。(3)非結構化數據是指數據結構不規(guī)則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。多種數據類型結構化數據半結構化數據非結構化數據二維數據表Excel文件JSON文件數據文件XML文件圖片文件聲音文件視頻文件數據采集5.2數據采集概述

ApacheFlume是一個分布式的、可靠的、高可用的海量日志采集、聚合和傳輸系統,主要用于收集各種數據源(如服務器日志、網絡流量等)的數據,并將這些數據傳輸到指定的目的地(如Hadoop、Hive等)。數據采集流程

ApacheFlume的數據采集流程是一個高效、靈活且可靠的過程,旨在從各種數據源中收集數據,并將其傳輸到指定的存儲或處理系統中。數據采集配置數據采集階段數據傳輸階段異常處理與監(jiān)控定義數據源配置采集流程數據源配置數據通道配置數據目的地配置采集服務啟動數據源讀取數據緩存寫入數據緩存讀取數據目的地輸出故障轉移監(jiān)控與管理數據采集組件Flume主要由三大核心組件構成:Source(數據源)、Channel(數據通道)和Sink(數據目的地)

Source組件負責接收并收集數據,常見的支持數據源包括:文件系統目錄(SpoolingDirectory、Taildir)消息隊列(Kafka)協議類型(Thrift、Avro、Http)系統日志(syslog)Channel組件作為Source和Sink之間的緩沖區(qū),暫存數據,常見的緩存通道包括:內存通道(MemoryChannel)文件系統通道(FileChannel)消息通道(KafkaChannel)等等Sink組件負責將Channel中的數據發(fā)送到目的地,常見的支持數據目的地包括:分布式文件系統系列(HDFS、Hive、HBase)消息隊列(Kafka)協議類型(Thrift、Avro、Http)搜索引擎(ES)數據集成5.3數據集成概述

數據集成是指將來自不同數據源的數據整合到一起形成一個統一的數據集。這個過程包括從不同的數據源中收集數據,對數據進行清洗、轉換、重構和整合,以便能夠在一個統一的數據倉庫或數據湖中進行存儲和管理。

數據集成目的信息流動與共享:通過數據集成,不同系統之間的信息得以流動和共享,消除信息孤島和數據孤島,提高數據的可用性和流動性。系統協同:促進不同系統之間的協同工作,共同完成特定的業(yè)務流程,提升業(yè)務執(zhí)行效率和質量。數據一致性與準確性:保證數據在不同系統之間的一致性和準確性,通過實時數據同步、數據驗證和數據清洗等技術手段,減少數據冗余和數據不一致帶來的問題。決策支持:為企業(yè)提供全面的數據視圖和整體分析能力,通過數據倉庫或數據湖的建設,進行全面的數據分析和洞察,為決策提供可靠的依據。數據集成應用

ApacheSeaTunnel是Apache軟件基金會下的一個高性能開源大數據集成工具,同時也是新一代分布式超高性能云原生數據同步工具,為數據集成場景提供靈活易用、易擴展并支持千億級數據集成的解決方案,已經在B站、騰訊云、字節(jié)等數百家公司使用。數據存儲5.4數據存儲類型

數據存儲是信息技術中至關重要的一個環(huán)節(jié),它涉及如何安全、高效地保存和訪問數據。數據存儲類型主要根據數據的物理存儲方式、訪問特性以及應用場景來劃分。

常見的數據存儲類型包括文件存儲

文件存儲也稱為文件級存儲或基于文件的存儲,將大量數據集中存儲在一起,當需要訪問該數據時,需要知道相應的查找路徑。存儲在文件中的數據會根據數量有限的元數據來進行整理和檢索。文件存儲系統示例包括分布式文件系統(HDFS)、GFS(google的分布式文件系統)等。塊存儲

塊存儲會將數據拆分成塊,并單獨存儲各個塊。每個數據塊都有一個唯一標識符,所以存儲系統能將較小的數據存放在最方便的位置。塊存儲是一種高效可靠的數據存儲方式,且易于使用和管理,塊存儲框架示例包括Ceph、MooseFS等框架。對象存儲

對象存儲,也稱為基于對象的存儲,是一種扁平結構,其中的文件被拆分成多個部分并散布在多個硬件間。對象存儲框架示例如阿里云的OSS,華為云的OBS,騰訊云的COS、Swift框架等。數據存儲格式

數據存儲格式是指數據在存儲介質中表示和組織的方式,以便于讀取、寫入和管理。

常見的數據存儲格式包括行式存儲

行式存儲是按照行數據為基礎邏輯存儲單元進行存儲的,一行中的數據在存儲介質中以連續(xù)存儲形式存。行式數據庫把一行中的數據值串在一起存儲起來,然后再存儲下一行的數據,以此類推。行式數據以二維表格形式呈現并使用。常見的行式存儲格式包括CSV、JSON、Text等。列是存儲

列式存儲數據是按照列為基礎邏輯存儲單元進行存儲的,一列中的數據在存儲介質中以連續(xù)存儲形式存在。列式數據庫把一列中的數據值串在一起存儲起來,然后再存儲下一列的數據,以此類推。常見的列式存儲格式包括ORC、Parquet等。數據壓縮格式及算法

大數據中常見的壓縮方式有Deflate,Snappy,ZLib,Gzib、Bzip2、LZ4、LZO,不同的壓縮方式效率不同。壓縮方式的選擇主要是由壓縮比、壓縮速度、是否支持分片

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論