數(shù)據(jù)編織的性能 2024-數(shù)據(jù)虛擬化架構(gòu)比較_第1頁(yè)
數(shù)據(jù)編織的性能 2024-數(shù)據(jù)虛擬化架構(gòu)比較_第2頁(yè)
數(shù)據(jù)編織的性能 2024-數(shù)據(jù)虛擬化架構(gòu)比較_第3頁(yè)
數(shù)據(jù)編織的性能 2024-數(shù)據(jù)虛擬化架構(gòu)比較_第4頁(yè)
數(shù)據(jù)編織的性能 2024-數(shù)據(jù)虛擬化架構(gòu)比較_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

denodo·······I概述3I引言:數(shù)據(jù)虛擬化架構(gòu)4專(zhuān)用數(shù)據(jù)虛擬化層具有數(shù)據(jù)虛擬化擴(kuò)展的數(shù)據(jù)引擎4I數(shù)據(jù)虛擬化架構(gòu)中的查詢(xún)執(zhí)行比較5專(zhuān)用數(shù)據(jù)虛擬化層具有數(shù)據(jù)虛擬化擴(kuò)展的數(shù)據(jù)湖引擎7混合方法I基準(zhǔn)測(cè)試11I總結(jié)18數(shù)據(jù)編織背后的一個(gè)關(guān)鍵思想是,能夠通過(guò)一個(gè)易于使用的中心化接數(shù)據(jù)編織背后的一個(gè)關(guān)鍵思想是,能夠通過(guò)一個(gè)易于使用的中心化接入點(diǎn)訪問(wèn)組織中的任何數(shù)據(jù)資產(chǎn)。最終用戶(hù)不必應(yīng)對(duì)幕后的復(fù)雜數(shù)據(jù)數(shù)據(jù)虛擬化層可以實(shí)現(xiàn)這一點(diǎn),它可以抽象出復(fù)雜性,并提供中心化的接入點(diǎn)。除了集中訪問(wèn)之外,該層通常還提供其他功能,如緩存、安全、建模和跨源聯(lián)合等,能夠在整個(gè)組織中統(tǒng)一實(shí)施。即使公司數(shù)據(jù)分散在數(shù)十個(gè)異構(gòu)系統(tǒng)中,這些功能仍將讓最終用戶(hù)感覺(jué),所有數(shù)從業(yè)務(wù)角度來(lái)看,數(shù)據(jù)編織的主要目標(biāo)是創(chuàng)建一個(gè)敏捷平臺(tái),通過(guò)自助服務(wù)數(shù)據(jù)層,以業(yè)務(wù)部門(mén)可以理解和使用的方式公開(kāi)數(shù)據(jù),從而縮短獲取數(shù)據(jù)的您可以在下面的“基準(zhǔn)測(cè)試”小節(jié)中找到測(cè)試方法和環(huán)境規(guī)格的詳細(xì)說(shuō)明。在這里,我們先簡(jiǎn)要總結(jié)測(cè)試結(jié)果。26.52秒這些結(jié)果展示了分布式環(huán)境中專(zhuān)用數(shù)據(jù)虛擬化層的強(qiáng)大能力。在這種環(huán)境下,其引擎的復(fù)雜程度?2024DenodoTechnologies3數(shù)據(jù)管理供應(yīng)商采用兩種主要的數(shù)據(jù)虛擬化技術(shù)來(lái)提供跨多個(gè)數(shù)據(jù)源的通用訪問(wèn)層。在本節(jié)中,我們將比較它們的在這類(lèi)架構(gòu)中,虛擬化層位于所有數(shù)據(jù)源之上,提供一個(gè)中心化接入點(diǎn)。它分析傳入的查詢(xún)并將每個(gè)請(qǐng)求轉(zhuǎn)發(fā)到包含相應(yīng)數(shù)據(jù)的數(shù)據(jù)源。這個(gè)過(guò)程被稱(chēng)為“查詢(xún)下推”或“查詢(xún)委托”。由于查詢(xún)可能涉及來(lái)自多個(gè)數(shù)據(jù)源的表,因此這類(lèi)軟件需要包含具有跨數(shù)據(jù)源聯(lián)合功能的引擎和目的驅(qū)動(dòng)型優(yōu)化器。緩存、聚合感知加速等技術(shù)被頻繁使用。在這類(lèi)架構(gòu)中,數(shù)據(jù)系統(tǒng)包含一個(gè)擴(kuò)展,不僅能夠鏈接自有數(shù)據(jù),也能鏈接外部數(shù)據(jù)源。這種架構(gòu)例子早期包括在這些系統(tǒng)中,當(dāng)請(qǐng)求外部數(shù)據(jù)時(shí),工作器節(jié)點(diǎn)會(huì)查詢(xún)外部表,并將其輸入并行引擎處理管道。此類(lèi)供應(yīng)商也提供++++++++++++++++云云++十+++ >云數(shù)據(jù)湖數(shù)據(jù)湖/湖倉(cāng)一體分布式文件系統(tǒng)分布式文件系統(tǒng)專(zhuān)用數(shù)據(jù)虛擬化對(duì)比數(shù)據(jù)湖擴(kuò)展兩種架構(gòu)都允許最終用戶(hù)在分布式數(shù)據(jù)環(huán)境中運(yùn)行查詢(xún),但處理方式顯著不同。下一節(jié)我們將深入探討這些設(shè)計(jì)差值得注意的是,專(zhuān)用數(shù)據(jù)虛擬化解決方案通常包含額外功能(例如高級(jí)建模、數(shù)據(jù)沿襲和治理用于創(chuàng)建和管理跨多個(gè)數(shù)據(jù)源的語(yǔ)義層。數(shù)據(jù)湖供應(yīng)商往往更關(guān)注針對(duì)對(duì)象存儲(chǔ)中的數(shù)據(jù)執(zhí)行查詢(xún),這些功能的分析不在本白皮書(shū)?2024DenodoTechnologies專(zhuān)用數(shù)據(jù)虛擬化層將充當(dāng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng),但有一個(gè)重大區(qū)別:它們僅托管元數(shù)據(jù),它們可以表示對(duì)象的元數(shù)據(jù)(如表、視圖和存儲(chǔ)過(guò)程),這一點(diǎn)與其他任何數(shù)據(jù)庫(kù)無(wú)異,但它們實(shí)際上并不托管數(shù)據(jù)。數(shù)據(jù)結(jié)果總是從原始數(shù)據(jù)源或緩存中獲取,并按需查詢(xún)。這些元數(shù)據(jù)不僅包含表名、列和數(shù)據(jù)類(lèi)型,還包含執(zhí)行底層數(shù)據(jù)源查詢(xún)所需的所有信息。其中一些細(xì)節(jié)包括:數(shù)據(jù)源類(lèi)型、版本和供應(yīng)商;數(shù)據(jù)類(lèi)型和結(jié)構(gòu)映射;用于成本估算的數(shù)據(jù)統(tǒng)計(jì);以及 基于規(guī)則的優(yōu)化器↓執(zhí)行計(jì)劃查詢(xún)解析基于成本的優(yōu)化器分析元數(shù)據(jù)和源功能 基于規(guī)則的優(yōu)化器↓執(zhí)行計(jì)劃查詢(xún)解析基于成本的優(yōu)化器分析元數(shù)據(jù)和源功能a.利用底層系統(tǒng)的處理能力。這種技術(shù)被稱(chēng)為“查詢(xún)下推”,對(duì)于具有處理能力的底層數(shù)據(jù)源(如關(guān)系數(shù)據(jù)i.此步驟至關(guān)重要,因?yàn)樗挂婺軌蚶脭?shù)據(jù)源所這是首選策略。執(zhí)行計(jì)劃將整個(gè)數(shù)據(jù)集引入虛擬化引擎,執(zhí)行任何其他操作(如:列轉(zhuǎn)換、聚合等)。?2024DenodoTechnologies52.數(shù)據(jù)分布在多個(gè)系統(tǒng)中。在這種情況下,數(shù)據(jù)虛擬化優(yōu)化器需要在多種操作技術(shù)中選擇,例如連接或聚合(內(nèi)存合并、哈希連接、嵌套循環(huán)、數(shù)據(jù)即時(shí)移動(dòng)到臨時(shí)表等)和查詢(xún)重寫(xiě)規(guī)則(分支修剪、部分聚合拆分等)?;诔杀镜膬?yōu)化器發(fā)揮著重要作用,因?yàn)樗褂萌娴臄?shù)據(jù)源統(tǒng)計(jì)數(shù)據(jù)和其他數(shù)據(jù)源詳細(xì)信息(例這是此類(lèi)架構(gòu)中引擎最復(fù)雜的部分,查詢(xún)性能在很大程度上取決于優(yōu)化器做出的決定。我們將在下面看到3.兩種技術(shù)的結(jié)合。在大多數(shù)查詢(xún)中,即使數(shù)據(jù)分布在多個(gè)數(shù)據(jù)源中,執(zhí)行也會(huì)同時(shí)使用上述兩種技術(shù),因?yàn)榭赡苡行┎僮骺梢韵峦?,而其他操作可以后處理。例如,您可能要連接三個(gè)表,但如果其中兩個(gè)表位于同一結(jié)果是一個(gè)執(zhí)行計(jì)劃中包含一個(gè)或多個(gè)“執(zhí)行分支”,這些分支通常并行執(zhí)行,以到達(dá)每個(gè)數(shù)據(jù)源并檢索部分?jǐn)?shù)據(jù)優(yōu)化器將生成算法和查詢(xún)重寫(xiě)規(guī)則的多種組合,估算每一步涉及的數(shù)據(jù)量,并根據(jù)估算成本選擇最優(yōu)方案。例如,以分組依據(jù)JOIN分組依據(jù)JOIN數(shù)據(jù)移動(dòng)數(shù)據(jù)移動(dòng)分組依據(jù)JOIN分組依據(jù)JOIN200萬(wàn)200萬(wàn)3億200萬(wàn)臨時(shí)Customer臨時(shí)Customer樸素策略樸素策略數(shù)據(jù)移動(dòng)分組依據(jù)分組依據(jù)JOIN200200萬(wàn)分組依據(jù)Customer分組依據(jù)CustomerID200200萬(wàn)部分聚合下推?2024DenodoTechnologies6的直接轉(zhuǎn)換。數(shù)據(jù)將同時(shí)從銷(xiāo)售表和客戶(hù)表中提取,數(shù)據(jù)虛擬化引擎會(huì)使用一種可用技術(shù)(如合并或哈希連接),在內(nèi)存中合并數(shù)據(jù),隨后按照國(guó)家/地區(qū)進(jìn)行匯總,生成最終輸出。該策略的最大不足是,需要移動(dòng)大量數(shù)據(jù)(3.02億行),并在引擎中進(jìn)行處理,才能產(chǎn)生相步驟執(zhí)行。第一步,從PostgreSQL中檢索客戶(hù)數(shù)據(jù),并將其移動(dòng)至由于所有數(shù)據(jù)都存在于Snow?ake中,整個(gè)查詢(xún)處理將被下推到Snow?ake,并發(fā)送給使用者。我們可以看到,數(shù)據(jù)移動(dòng)已大幅減少到僅200萬(wàn)行,并且所有處理都已下推到并未采用樸素策略,而是將查詢(xún)重寫(xiě)為更高效的形式。為了最大程度地實(shí)施查詢(xún)下推,聚合將分為兩個(gè)按國(guó)家/地區(qū)進(jìn)行。盡管可能有違直覺(jué),但它顯著減少了網(wǎng)絡(luò)流量和數(shù)據(jù)虛擬化引擎中的處理量,同時(shí)充分利用Snow?ake等引擎的MPP但這個(gè)例子只觸及了問(wèn)題表面,例如,我們沒(méi)有涉及連接算法或表順序等主題,另外需要注意的是,我們沒(méi)有采用任何緩存或聚合感知加速技術(shù),僅僅是實(shí)時(shí)執(zhí)行(有關(guān)這些方案的更多詳細(xì)信息,請(qǐng)參閱下面的“其他加速技術(shù)”■工作器節(jié)點(diǎn),負(fù)責(zé)執(zhí)行查詢(xún)和處理數(shù)據(jù),還負(fù)責(zé)獲取數(shù)據(jù)(通常從對(duì)象存儲(chǔ)中獲?。?,并可以相互通信。?2024DenodoTechnologies數(shù)據(jù)流------->其他調(diào)用客戶(hù)端應(yīng)用程序?qū)ο蟠鎯?chǔ)對(duì)象存儲(chǔ)在執(zhí)行管道方面,當(dāng)協(xié)調(diào)器接收到查詢(xún)后,它會(huì)解析查詢(xún),將其映射到元存儲(chǔ)中的信息,并利用其優(yōu)化器創(chuàng)建分布式查詢(xún)計(jì)劃。查詢(xún)計(jì)劃以層級(jí)化任務(wù)結(jié)構(gòu)形式構(gòu)建,這些任務(wù)在各工作器節(jié)點(diǎn)上運(yùn)行。每項(xiàng)任務(wù)都會(huì)操作一個(gè)數(shù)據(jù) 元存儲(chǔ)客戶(hù)端應(yīng)用程序客戶(hù)端應(yīng)用程序協(xié)調(diào)器協(xié)調(diào)器工作器工作器工作器200萬(wàn)工作器200萬(wàn)工作器在數(shù)據(jù)傳輸上也有同樣問(wèn)題。此外,數(shù)據(jù)湖引擎的優(yōu)化器并不像專(zhuān)用數(shù)據(jù)虛擬化引擎那樣,提供各種可聯(lián)合的先進(jìn)?2024DenodoTechnologies即使所有數(shù)據(jù)都在同一個(gè)數(shù)據(jù)源中,大多數(shù)數(shù)據(jù)湖引擎也會(huì)使用這種相同的執(zhí)行模式,因?yàn)檫B接器不具備高級(jí)SQL方言轉(zhuǎn)換邏輯、復(fù)雜數(shù)據(jù)類(lèi)型的映射,以及關(guān)于數(shù)據(jù)源邏輯的其他信息,例如數(shù)據(jù)整理(數(shù)據(jù)源對(duì)非數(shù)字值進(jìn)行排序的方式)。這意味著數(shù)據(jù)湖引擎將對(duì)每張表進(jìn)行掃描,并使用自己的引擎處理來(lái)自外部源的查詢(xún)。這種方法有一些優(yōu)點(diǎn)(例如,減少遺留數(shù)據(jù)源的工作負(fù)載但也存在重大問(wèn)題。例如,無(wú)法利用數(shù)據(jù)源的內(nèi)部結(jié)構(gòu)來(lái)加速處理值得注意的還有,以數(shù)據(jù)湖為中心的生態(tài)系統(tǒng)中,經(jīng)常會(huì)看到將數(shù)據(jù)湖內(nèi)容與外部系統(tǒng)混合在一起的查詢(xún)。這類(lèi)目前,我們可以看到,許多供應(yīng)商正在跨越不同架構(gòu)界限,融合兩種方法概念的混合型產(chǎn)品變得十分常見(jiàn)。實(shí)際大的下推功能,這些功能是對(duì)其開(kāi)源版本所提供功能的擴(kuò)展。這些功能使引擎能夠下推一些額外操作,如連接。盡Warehouse調(diào)度程序數(shù)據(jù)目錄+++++++++.虛擬化服務(wù)器對(duì)象存儲(chǔ)數(shù)據(jù)科學(xué)筆記本其他應(yīng)用程序本地?cái)?shù)據(jù)Warehouse調(diào)度程序數(shù)據(jù)目錄+++++++++.虛擬化服務(wù)器對(duì)象存儲(chǔ)數(shù)據(jù)科學(xué)筆記本其他應(yīng)用程序本地?cái)?shù)據(jù)操作型操作型?2024DenodoTechnologies幾乎所有供應(yīng)商都提供緩存功能。緩存允許引擎重復(fù)使用之前計(jì)算的結(jié)果。大多數(shù)供應(yīng)商還提供更新緩存內(nèi)容的功能,以保持其時(shí)效性(通常通過(guò)增量更新實(shí)現(xiàn),以避免全盤(pán)更新)。此外,De當(dāng)優(yōu)化器檢測(cè)到“緩存命中”時(shí),無(wú)論是完全命中,還是部分命中,都會(huì)將引擎重定向到緩存系統(tǒng),以檢索該數(shù)據(jù),此外,Denodo還提供聚合感知加速,該技術(shù)將利用聚合產(chǎn)生的較小數(shù)據(jù)集,以及“分析查詢(xún)經(jīng)常聚合原始數(shù)據(jù),產(chǎn)生最終結(jié)果”這一事實(shí)。例如,回想上一節(jié)中描述的“按國(guó)家/地區(qū)的總銷(xiāo)售額”查詢(xún),聚合感知加速所基于的理念是:預(yù)聚合的中間結(jié)果可用作計(jì)算最終結(jié)果的基礎(chǔ),比使用原始表快得多。這項(xiàng)技術(shù)有兩大優(yōu)勢(shì),在分析領(lǐng)域極為有用:■不需要最終用戶(hù)的輸入。執(zhí)行引擎會(huì)自動(dòng)檢測(cè)可加8使用Denodo平臺(tái)進(jìn)行聚合感知查詢(xún)加速的效果。所有查詢(xún)均利用基于人工智能推薦創(chuàng)建的單一加速結(jié)構(gòu),執(zhí)行時(shí)間以秒為單位。864200?2024DenodoTechnologies最后,要讓這項(xiàng)技術(shù)有效發(fā)揮作用,關(guān)鍵在于熟練選擇應(yīng)進(jìn)行預(yù)計(jì)算和預(yù)聚合的數(shù)據(jù),但這種決策并非易事。幸運(yùn)的是這方面,人工智能可以提供幫助,Denodo等供應(yīng)商提供了人定制推薦。關(guān)于這項(xiàng)功能的更深入解釋?zhuān)稍谶@篇文章中找到,基于人工智能的推薦引擎在這篇文章中有描述。 15,000,000150,000,000600,037,90280,000,00020,000,0001,000,000255<<<<<<<<2555?2024Denodo123456此查詢(xún)量化了如果在給定年份消除特定百分比范圍內(nèi)的全公司折扣,將會(huì)帶來(lái)789?2024DenodoTechnologies對(duì)于數(shù)據(jù)湖引擎,我們使用了數(shù)據(jù)湖領(lǐng)域一家領(lǐng)先開(kāi)源供應(yīng)商的最新版本(撰寫(xiě)本文時(shí)的2024年2月版■20個(gè)工作器節(jié)點(diǎn)■?2024DenodoTechnologies在這個(gè)場(chǎng)景中,我們要模擬的查詢(xún)需要完全存儲(chǔ)在外部系統(tǒng)中的數(shù)據(jù)。例如,您可能需要使12349205.3330807845624604.5789252964948498826524.9918508624.5執(zhí)行時(shí)間以毫秒為單位。兩個(gè)引擎均成功完成了所有測(cè)試。然而很明顯,Denodo平臺(tái)的專(zhuān)用架構(gòu)能夠利用對(duì)外部企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(如Redshift)的訪問(wèn)能力,其速度比數(shù)據(jù)湖引擎快幾個(gè)數(shù)量級(jí)。如上一節(jié)所述,為每張表使用一個(gè)工作器的數(shù)據(jù)湖策略需要在網(wǎng)絡(luò)上移動(dòng)大量數(shù)據(jù),因此即使有20個(gè)節(jié)點(diǎn)并行處理查詢(xún),執(zhí)行時(shí)間也明顯高于Denodo平臺(tái)執(zhí)26.52秒26.52秒另外需要注意的是,一些數(shù)據(jù)湖供應(yīng)商在其商業(yè)產(chǎn)品中提供企業(yè)連接器,其下推邏輯比這些測(cè)試中使用的開(kāi)源版本場(chǎng)景2:聯(lián)合兩個(gè)外部源26756354005.25720549.2533284488920478199063.58835578執(zhí)行時(shí)間以毫秒為單位。數(shù)據(jù)湖引擎采用的執(zhí)行計(jì)劃非常相似,即基于將工作器映射到數(shù)據(jù)源表。值得注意的是,在這次聯(lián)合測(cè)試中,一些查詢(xún)速度更快??紤]到數(shù)據(jù)湖引擎中的執(zhí)行計(jì)劃幾乎完全相同,解釋為數(shù)據(jù)源的工作負(fù)載減少了,現(xiàn)在分成了兩個(gè)?2024DenodoTechnologies場(chǎng)景3:聯(lián)合數(shù)據(jù)湖和小型外部源數(shù)據(jù)湖引擎高度關(guān)注將數(shù)據(jù)湖作為生態(tài)系統(tǒng)核心部分的場(chǎng)景,測(cè)試部分?jǐn)?shù)據(jù)集位于數(shù)據(jù)湖中的場(chǎng)景也是合理的。本規(guī)格與其他數(shù)據(jù)湖供應(yīng)商完全相同。在本特定案例中,我們將大型事實(shí)表置于數(shù)據(jù)湖中,而較小的維度表則存放在237070.2556929.2523262.578024892047869454.25執(zhí)行時(shí)間以毫秒為單位。兩家供應(yīng)商均成功完成所有測(cè)試。這種場(chǎng)景正是數(shù)據(jù)湖的強(qiáng)項(xiàng),在并行訪問(wèn)事實(shí)表的情況下,可以并行處理大部分2分29秒?2024DenodoTechnologies場(chǎng)景4:聯(lián)合數(shù)據(jù)湖和大型外部源作為上述場(chǎng)景變體,我們修改了表的分布,使大型表格位于數(shù)據(jù)湖之外,代表了例如企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中大型表需要與

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論