2024年開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第1頁
2024年開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第2頁
2024年開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第3頁
2024年開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第4頁
2024年開源大數(shù)據(jù)行業(yè)熱點(diǎn)洞察報(bào)告_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2024年開源大數(shù)據(jù)行業(yè)發(fā)展洞察報(bào)告CONTENTS目

錄01大數(shù)據(jù)開源工具發(fā)展背景02大數(shù)據(jù)開源工具熱力趨勢03大數(shù)據(jù)工具熱力值說明2大數(shù)據(jù)開源工具發(fā)展背景0134大數(shù)據(jù)技術(shù)的行業(yè)應(yīng)用來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。醫(yī)療保健預(yù)測分析用于病人護(hù)理:預(yù)測病人入院情況,優(yōu)化資源分配臨床決策支持:通過數(shù)據(jù)聚合增強(qiáng)治療建議人群健康管理:分析數(shù)據(jù)以跟蹤疾病爆發(fā)并針對性干預(yù)制造業(yè)預(yù)測性維護(hù):預(yù)測設(shè)備故障以減少停機(jī)時(shí)間供應(yīng)鏈優(yōu)化:利用數(shù)據(jù)洞察改善物流和需求預(yù)測質(zhì)量控制:實(shí)時(shí)監(jiān)控生產(chǎn)以確保產(chǎn)品質(zhì)量金融服務(wù)欺詐檢測:監(jiān)控交易以識別和防止欺詐風(fēng)險(xiǎn)管理:通過全面數(shù)據(jù)分析增強(qiáng)信用評分客戶細(xì)分:針對性分析客戶,開發(fā)有針對性的產(chǎn)品能源與公用服務(wù)智能電網(wǎng)管理:通過需求預(yù)測改善負(fù)載平衡預(yù)測性資產(chǎn)維護(hù):安排維護(hù)以防止停電可再生能源預(yù)測:優(yōu)化可再生能源的接入電網(wǎng)零售客戶個(gè)性化檢視:根據(jù)購買歷史定制營銷活動庫存管理:通過準(zhǔn)確預(yù)測需求優(yōu)化庫存水平價(jià)格優(yōu)化:利用競爭者分析和市場分析動態(tài)定價(jià)產(chǎn)品電信客戶流失預(yù)測:識別不滿意的客戶以降低流失率網(wǎng)絡(luò)優(yōu)化:分析流量以更好地分配網(wǎng)絡(luò)資源欺詐預(yù)防:檢測賬單和使用數(shù)據(jù)中的異常情況大數(shù)據(jù)技術(shù)應(yīng)用廣度與深度持續(xù)加大,成為決定企業(yè)競爭力的重要因素十多年來,隨著大數(shù)據(jù)技術(shù)的演進(jìn)與成熟,其在經(jīng)濟(jì)領(lǐng)域中的應(yīng)用也在拓展并持續(xù)深化。目前,在包括醫(yī)療保健、零售、金融服務(wù)、制造業(yè)、電信、能源與公共服務(wù)的各主要行業(yè)中,大數(shù)據(jù)技術(shù)在精細(xì)管理、趨勢預(yù)測、風(fēng)險(xiǎn)識別、決策支持等場景中發(fā)揮著越來越重要的作用。數(shù)字時(shí)代背景下,數(shù)據(jù)已成為企業(yè)核心資產(chǎn),而大數(shù)據(jù)技術(shù)則是對這項(xiàng)資產(chǎn)開發(fā),利用,賦能企業(yè)的重要手段,越來越多的企業(yè)認(rèn)識到用對、用好大數(shù)據(jù)技術(shù)將決定自身的行業(yè)競爭力。大數(shù)據(jù)技術(shù)在各主要行業(yè)中的典型應(yīng)用場景5來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。來源:中國信通院云計(jì)算開源產(chǎn)業(yè)聯(lián)盟,中國通信標(biāo)準(zhǔn)化協(xié)會《全球開源生態(tài)洞察報(bào)告(2024年)》,艾瑞咨詢研究院自主研究及繪制。

大數(shù)據(jù)工具的開源6420大數(shù)據(jù)技術(shù)領(lǐng)域開源生態(tài)成熟度雷達(dá)圖技術(shù)流行度108創(chuàng)新轉(zhuǎn)化能力法律合規(guī)安全能力技術(shù)穩(wěn)定性技術(shù)生產(chǎn)力大數(shù)據(jù)領(lǐng)域具備較好的技術(shù)穩(wěn)健性,以Hadoop、Spark、Flink等為代表的傳統(tǒng)大數(shù)據(jù)產(chǎn)品已趨于成熟新型開源大數(shù)據(jù)工具不斷向個(gè)性化、定制化發(fā)展,如大數(shù)據(jù)框架中加入AI類庫,以及如Uber、Netflix、Spotify等企業(yè)根據(jù)自身特定業(yè)務(wù)貢獻(xiàn)新的適用于具體應(yīng)用場景的大數(shù)據(jù)工具開源趨勢下,大數(shù)據(jù)傳統(tǒng)工具已經(jīng)成熟,個(gè)性化新型工具不斷加入狹義上的開源大數(shù)據(jù)工具是指在開源大生態(tài)下,專注于解決海量、多類型數(shù)據(jù)的連接、存儲、管理等功能的工具集合。但從搭建大數(shù)據(jù)平臺角度出發(fā),通常還需要加入AI類組件以幫助數(shù)據(jù)分析,云原生工具以實(shí)現(xiàn)容器編排,另外關(guān)系型及各類非關(guān)系型數(shù)據(jù)庫被視為大數(shù)據(jù)的基礎(chǔ),由此得到廣義上的大數(shù)據(jù)工具套件。本報(bào)告將以廣義大數(shù)據(jù)工具為研究對象,對其進(jìn)行分析。開源生態(tài)下狹義與廣義大數(shù)據(jù)工具前端框架組件庫功能插件制作平臺解決方案操作系統(tǒng)桌面操作系統(tǒng)服務(wù)器操作系統(tǒng)云操作系統(tǒng)IoT操作系統(tǒng)數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫鍵值數(shù)據(jù)庫向量數(shù)據(jù)庫時(shí)序數(shù)據(jù)庫圖數(shù)據(jù)庫大數(shù)據(jù)數(shù)據(jù)存儲數(shù)據(jù)處理數(shù)據(jù)分析數(shù)據(jù)管理數(shù)據(jù)連接中間件服務(wù)器中間件通訊中間件Web中間件安全中間件人工智能數(shù)據(jù)集智能算法庫訓(xùn)練平臺AI引擎云原生微服務(wù)中間件容器技術(shù)及編排網(wǎng)絡(luò)服務(wù)6數(shù)據(jù)管理數(shù)據(jù)查詢與連接流處理與消息處理數(shù)據(jù)組織,版本控制,數(shù)據(jù)治理數(shù)據(jù)集間的查詢、整合、控制實(shí)時(shí)調(diào)控?cái)?shù)據(jù)管道及事件流數(shù)據(jù)存儲數(shù)據(jù)框架數(shù)據(jù)庫指導(dǎo)數(shù)據(jù)如何存儲及序列化為分布式數(shù)據(jù)處理提供核心能力結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)主存儲系統(tǒng)開源大數(shù)據(jù)工具的分類及功能來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。1數(shù)據(jù)編排在線分析數(shù)據(jù)流自動化編排、監(jiān)控并處理,實(shí)現(xiàn)數(shù)據(jù)有效利用 大數(shù)據(jù)集的快速聚合、查詢與實(shí)時(shí)分析機(jī)器學(xué)習(xí)運(yùn)維自動化部署、監(jiān)控及管理機(jī)器學(xué)習(xí)模型的運(yùn)營平臺記錄及監(jiān)控?cái)?shù)據(jù)可視化監(jiān)控?cái)?shù)據(jù)基礎(chǔ)設(shè)施健康情況,追蹤指標(biāo)表現(xiàn) 將數(shù)據(jù)洞察可視化展現(xiàn)按功能類型分為5層11模塊,合理的工具選型是搭建大數(shù)據(jù)平臺的前提大數(shù)據(jù)工具組件是大數(shù)據(jù)技術(shù)輸出的載體,數(shù)字化與智能化時(shí)代下,一套完整的大數(shù)據(jù)工具可以分為基礎(chǔ)層、數(shù)據(jù)連接層、編排與分析層、人工智能層、監(jiān)控及可視化層共5層,包括儲存格式、數(shù)據(jù)框架,數(shù)據(jù)庫、數(shù)據(jù)管理、數(shù)據(jù)查詢與連接、流處理與消息管理、數(shù)據(jù)編排、在線分析、機(jī)器學(xué)習(xí)運(yùn)維、記錄及監(jiān)控、數(shù)據(jù)可視化11個(gè)模塊。大數(shù)據(jù)工具層級圖是對大數(shù)據(jù)工具的總覽,開源工具林林總總,企業(yè)應(yīng)先解各個(gè)工具的定位與功能,根據(jù)自身需求牟定工具類型,再進(jìn)行具體工具的選型。開源大數(shù)據(jù)工具層級圖監(jiān)控及可視化層可視化展現(xiàn)系統(tǒng)健康情況,幫助理解數(shù)據(jù)洞察結(jié)論人工智能層為以機(jī)器學(xué)習(xí)為代表的各類AI的運(yùn)行提供基礎(chǔ)服務(wù)編排及分析層實(shí)現(xiàn)大數(shù)據(jù)的自動化、實(shí)時(shí)處理及分析數(shù)據(jù)連接層管理數(shù)據(jù)的連接、流動、查詢等數(shù)據(jù)治理任務(wù)基礎(chǔ)層數(shù)據(jù)存儲、數(shù)據(jù)處理,確?;A(chǔ)設(shè)施的可擴(kuò)展性23457大數(shù)據(jù)開源工具熱力趨勢02熱力趨勢(1/12):數(shù)據(jù)存儲開源大數(shù)據(jù)數(shù)據(jù)存儲工具熱力圖2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024沿二進(jìn)制存儲、列存儲、云上數(shù)據(jù)湖的路徑演化,多樣化容納數(shù)據(jù)類型2024上半年熱力值8.447.717.647.537.027.026.895.855.465.355.064.724.683.380.78列存儲格式適應(yīng)重任務(wù)下的數(shù)據(jù)分析查詢Parquet,

ORC二進(jìn)制和結(jié)構(gòu)化格式針對數(shù)據(jù)序列化進(jìn)行優(yōu)化Avro,Thrift,Protocol

Buffers云原生數(shù)據(jù)格式云上數(shù)據(jù)湖DeltaLake,Iceberg,

Hudi來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。8①②③熱力趨勢(2/12):框架大數(shù)據(jù)框架隨數(shù)據(jù)量的擴(kuò)大以及處理速度需求提升而迭代;進(jìn)入大模型時(shí)代,大數(shù)據(jù)框架進(jìn)而整合模型開發(fā)組件開源大數(shù)據(jù)框架熱力圖實(shí)時(shí)計(jì)算、內(nèi)存計(jì)算流處理、批流一體Spark,Flink,

Storm分布式計(jì)算及存儲批處理Hadoop:HDFS+Mapreduce8.806.505.785.755.634.974.843.0520142015201620172018201920202021202220232024AI函數(shù)庫支持模型訓(xùn)練、微調(diào)Ray,MLlib(Spark)①②③2024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。9熱力趨勢(3/12):數(shù)據(jù)庫

-

之一數(shù)據(jù)庫種類逐漸豐富,支持云原生、大模型開發(fā)訓(xùn)練及實(shí)時(shí)分析開源大數(shù)據(jù)數(shù)據(jù)庫熱力圖(1-15)2022

2023

2024?

云原生數(shù)據(jù)庫非關(guān)系型數(shù)據(jù)庫管理處理半結(jié)構(gòu)、非結(jié)構(gòu)型數(shù)據(jù)Cassandra,MongoDB,

HBaseAI相關(guān)——向量數(shù)據(jù)庫高效管理、查詢嵌入向量Milvus,

Weaviate①為基于云的高性能數(shù)據(jù)分析優(yōu)化

②CockroachDB,

TiDB③7.016.996.876.256.116.015.715.605.535.485.485.455.395.385.182009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

20212024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。10熱力趨勢(3/12):數(shù)據(jù)庫

-之二數(shù)據(jù)庫種類逐漸豐富,支持云原生、大模型開發(fā)訓(xùn)練及實(shí)時(shí)分析開源大數(shù)據(jù)數(shù)據(jù)庫熱力圖(16-31)2024上半年熱力值5.024.384.264.084.023.863.863.753.623.543.303.152.992.960.700.522009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

202120222023

2024來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。11熱力趨勢(4/12):數(shù)據(jù)管理隨系統(tǒng)復(fù)雜性提升,數(shù)據(jù)管理更注重?cái)?shù)據(jù)血緣,版本控制及流程自動化開源大數(shù)據(jù)數(shù)據(jù)管理工具熱力圖?

數(shù)據(jù)質(zhì)量/一致性保證、版本控制自動化驗(yàn)證,可回溯Great_Expectations,

LakeFS①②③7.577.557.516.045.775.465.413.863.673.663.140.702012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024數(shù)據(jù)目錄及數(shù)據(jù)治理 ?

元數(shù)據(jù)治理,數(shù)據(jù)血緣快速精準(zhǔn)查找、正確使用數(shù)據(jù)資產(chǎn) ?

洞察數(shù)據(jù)關(guān)系,數(shù)據(jù)價(jià)值挖掘CKAN,

Metacat ?

Amundsen,DataHub,

Atlas2024上半年來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。12熱力值9.02熱力趨勢(5/12):查詢與連接從批量到實(shí)時(shí),從單一數(shù)據(jù)源到跨系統(tǒng)多元數(shù)據(jù),從關(guān)系型數(shù)據(jù)到非關(guān)系型數(shù)據(jù),工具的進(jìn)化讓數(shù)據(jù)查詢更迅速、更靈活、更絲滑開源大數(shù)據(jù)查詢與連接工具熱力圖?

對于分布式數(shù)據(jù)的快速查詢做優(yōu)化?

實(shí)時(shí)查詢,實(shí)時(shí)分析基于Hadoop框架的大數(shù)據(jù)查詢使用SQL語句進(jìn)行低延時(shí)批量查詢?

多數(shù)據(jù)源多數(shù)據(jù)類型統(tǒng)一聯(lián)合查詢?

使用一套查詢語句及統(tǒng)一界面①②③2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 20242024上半年熱力值8.458.207.727.026.494.533.843.782.872.64?

Hive,Pig,

Presto來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?

Druid,

Impala?

Beam,Trino,

Drill13熱力趨勢(6/12):流處理及消息管理由簡單的消息處理功能發(fā)展為功能復(fù)雜適應(yīng)混合場景的數(shù)據(jù)管理工具開源大數(shù)據(jù)流處理及消息管理工具熱力圖消息隊(duì)列、訂閱/發(fā)布、日志聚合 ?

分布式架構(gòu)簡單消息系統(tǒng)中處理少量實(shí)時(shí)數(shù)據(jù)云原生、事件驅(qū)動架構(gòu)混合負(fù)載+多租戶+地域復(fù)制①?

實(shí)時(shí)數(shù)據(jù)+高吞吐量+低容錯(cuò)率

②③2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

20242024上半年?

RabbitMQ,

ActiveMQ來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?

Kafka,NiFi,

Debezium?

Pulsar,

Memphis14熱力值7.087.026.506.406.376.015.515.255.024.974.673.713.483.253.221.60熱力趨勢(7/12):編排大數(shù)據(jù)編排工具的演變反映了數(shù)據(jù)工作流不斷變化的需求和復(fù)雜性開源大數(shù)據(jù)編排工具熱力圖①②③2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024批處理過程、簡單任務(wù)依賴 ?

基于有向無環(huán)圖構(gòu)建任務(wù)關(guān)系 ?

將數(shù)據(jù)管道視為軟件資產(chǎn)集中式調(diào)度器管理任務(wù)的執(zhí)行 ?

模塊化架構(gòu)并與云服務(wù)集成 ?

數(shù)據(jù)血緣追蹤,推動團(tuán)隊(duì)協(xié)作2024上半年熱力值8.386.956.926.886.565.745.665.605.284.603.183.041.860.89?

Luigi來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。?

Airflow,

argo?

Dagster,DolphinScheduler15熱力趨勢(8/12):在線分析由對數(shù)據(jù)的批量抓取分析發(fā)展為云原生可處理高并發(fā)的實(shí)時(shí)數(shù)據(jù)分析開源大數(shù)據(jù)在線分析工具熱力圖?

簡化查詢處理過程,實(shí)時(shí)動態(tài)分析列存儲,矢量化執(zhí)行ClickHouse,Trino,Doris查詢處理結(jié)構(gòu)化、預(yù)聚合數(shù)據(jù)準(zhǔn)實(shí)時(shí)抓取查詢數(shù)據(jù),分布式結(jié)構(gòu)Druid,Pinot,

Kylin8.288.117.997.877.546.945.585.212.412013 20142015201620172018201920202021202220232024云原生架構(gòu),內(nèi)存計(jì)算實(shí)時(shí)高并發(fā)數(shù)據(jù)分析?

StarRocks,Databend,

DuckDB①②③2024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。16熱力趨勢(9/12):機(jī)器學(xué)習(xí)運(yùn)維

-之一由基礎(chǔ)開發(fā)生命管理發(fā)展為以AI專有性能指標(biāo)為核心設(shè)置的工具生態(tài)體系開源大數(shù)據(jù)機(jī)器學(xué)習(xí)運(yùn)維工具熱力圖(1-11)端到端的ML流程編排與自動化支持本地與云環(huán)境Kubeflow,Polyaxon?

基礎(chǔ)模型開發(fā)跟蹤、可視化及部署8.818.447.657.597.297.176.416.135.775.625.542018201920202021202220232024?

實(shí)時(shí)模型服務(wù),AI優(yōu)先功能:可解釋性、公平性、漂移檢測?

BentoML,ZenML,

Ollama未與云融合,編排與自動化能力有限①M(fèi)laflow,DVC,

Pachyderm②③2024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。17熱力趨勢(9/12):機(jī)器學(xué)習(xí)運(yùn)維

-之二由基礎(chǔ)開發(fā)生命管理發(fā)展為以AI專有性能指標(biāo)為核心設(shè)置的工具生態(tài)體系開源大數(shù)據(jù)機(jī)器學(xué)習(xí)運(yùn)維工具熱力圖(12-23)2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 20245.434.914.744.704.624.243.771.931.470.650.540.442024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。18熱力趨勢(10/12):記錄與監(jiān)測由簡單的日志管理及可視化發(fā)展為集日志、指標(biāo)、追蹤為一體數(shù)據(jù)觀測棧開源大數(shù)據(jù)記錄與監(jiān)測工具熱力圖構(gòu)建更強(qiáng)大的指標(biāo)評估系統(tǒng)實(shí)時(shí)、主動監(jiān)測與預(yù)警Prometheus,

Grafana集中式日志管理與分析提供日志搜索能力及可視化界面Elasticsearch,Logstash,

Graylog8.917.897.886.976.606.546.526.506.505.004.644.243.96201020112012201320142015201620172018201920202021202220232024?

擴(kuò)展性更強(qiáng),效率更優(yōu)①②與其他大數(shù)據(jù)處理組件無縫結(jié)合

③SigNoz,OpenTelemetry2024上半年熱力值來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。19熱力趨勢(11/12):可視化由靜態(tài)、本地化解決方案向高互動性、云化、融合AI能力的方向演進(jìn)開源大數(shù)據(jù)可視化工具熱力圖?

互動性可視化、儀表盤靜態(tài)可視化,基礎(chǔ)繪圖與桌面環(huán)境或某些編程語言整合ggplot2,Matplotlib,

Seaborn支持多用戶協(xié)作,加入AI能力與大數(shù)據(jù)架構(gòu)、數(shù)倉深度融合Superset,Kibana,Redash①與數(shù)據(jù)實(shí)時(shí)互動,基于網(wǎng)絡(luò)部署

②Metabase,Bokeh,

Plotly③2024上半年熱力值9.157.967.805.485.435.405.275.164.783.633.633.341.912008 2009 2010 2011 2012201320142015 2016 2017 2018 201920202021 2022 2023 2024來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。20熱力趨勢(12/12):數(shù)據(jù)安全實(shí)時(shí)威脅檢測和響應(yīng)網(wǎng)絡(luò)流量的深度包檢測Falco,Suricata日志分析與事件關(guān)聯(lián)基本的入侵檢測能力(日志監(jiān)控)OSSEC,

Sentry細(xì)粒度的訪問控制策略集中的安全策略管理Cilium,Ranger,

Knox①②③2024上半年熱力值8.808.385.574.934.524.183.673.512011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024從基礎(chǔ)安全和監(jiān)控能力發(fā)展到高級威脅檢測,最終實(shí)現(xiàn)全面的訪問管理和數(shù)據(jù)治理開源大數(shù)據(jù)安全組件工具熱力圖來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。21開源大數(shù)據(jù)工具熱力趨勢總結(jié)由于不同時(shí)期的技術(shù)挑戰(zhàn)與應(yīng)用需求促使大數(shù)據(jù)工具的迭代與豐富來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。22開源大數(shù)據(jù)工具發(fā)展時(shí)間圖201320142015201620172018201920202021202220232024實(shí)時(shí)數(shù)據(jù)處理互聯(lián)網(wǎng)企業(yè)對高通量、實(shí)時(shí)數(shù)據(jù)流的處理需求批流一體批流數(shù)據(jù)需整合統(tǒng)一而非后者替代前者數(shù)據(jù)湖及滄湖一體解決數(shù)據(jù)湖數(shù)據(jù)質(zhì)量、一致性、實(shí)時(shí)性等問題機(jī)器學(xué)習(xí)組件整合大模型時(shí)代管理機(jī)器學(xué)習(xí)生命周期(實(shí)驗(yàn)、再現(xiàn)及部署)數(shù)據(jù)存儲及擴(kuò)展性解決分布式數(shù)據(jù)庫的擴(kuò)展性及高時(shí)延聯(lián)邦查詢在多樣數(shù)據(jù)集間進(jìn)行查詢而不移動數(shù)據(jù)與云原生整合云原生架構(gòu)下更高效、自動化的管理容器數(shù)據(jù)編目及治理數(shù)據(jù)量上升后,需要工具對其發(fā)掘、歸納并翻譯數(shù)據(jù)查詢與分析解決數(shù)據(jù)查詢緩慢、不及時(shí)的問題數(shù)據(jù)安全集中性安全管理、細(xì)粒度訪問控制云廠商開源大數(shù)據(jù)工具支持度比較在34個(gè)地理區(qū)域內(nèi)運(yùn)營108個(gè)可用區(qū)計(jì)劃在墨西哥、新西蘭、沙特阿拉伯王國、泰國、中國臺灣和AWS歐盟主權(quán)云增加18個(gè)可用區(qū)和6個(gè)AWS區(qū)域擁有超過410個(gè)邊緣站點(diǎn)與本地區(qū)域自研ARM架構(gòu)Graviton處理器為云原生工作任務(wù)高度定制,使AWS更具成本效益、更節(jié)能、更高效相較于x86芯片,Graviton3可達(dá)到60%的能耗提升,

Graviton2

可達(dá)到最高30%的性能提升對開源大數(shù)據(jù)工具提供廣泛支持,為主流大數(shù)據(jù)框架提供托管服務(wù)AWS生態(tài)中的如EMR,MSK等服務(wù)與大數(shù)據(jù)開源工具無縫結(jié)合AWS兼容各類開源數(shù)據(jù)倉庫與數(shù)據(jù)湖,通過Glue與Athena可以輕松查詢或轉(zhuǎn)換各類開源格式的數(shù)據(jù)服務(wù)范圍涵蓋包括64

個(gè)區(qū)域在內(nèi)的共140個(gè)國家共有175個(gè)邊緣節(jié)點(diǎn)基于Intel及AMD芯片搭建云服務(wù)通過HDInsight與Databricks將開源大數(shù)據(jù)工具與Azure整合,為用戶處理結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)提供統(tǒng)一平臺Azure

Synapse也將基于Spark的分析原生地整合進(jìn)來在38個(gè)區(qū)域中的115個(gè)節(jié)點(diǎn)運(yùn)營(包括本地節(jié)點(diǎn)與邊緣節(jié)點(diǎn))正在另外13個(gè)區(qū)域加緊布局,但總體上在歐美之外的區(qū)域布局較少主要基于Intel及AMD芯片搭建云服務(wù)提供第三方廠商Ampere

設(shè)計(jì)的AltraARM架構(gòu)芯片第三方芯片尚未能與自身云平臺進(jìn)行深度整合BigQuery是完全托管的數(shù)據(jù)倉庫,支持多種開源數(shù)據(jù)格式,同時(shí)支持與開源框架整合進(jìn)行高階數(shù)據(jù)分析通過

GKE

支持容器化工作負(fù)載,

在Kubernetes集群上調(diào)度開源大數(shù)據(jù)應(yīng)用,管理復(fù)雜的大數(shù)據(jù)管道來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。23基礎(chǔ)設(shè)施覆蓋度、云計(jì)算成本及效用以及開源配套服務(wù)是影響客戶在利用開源工具自建大數(shù)據(jù)平臺時(shí)選型底層云平臺的主要因素基礎(chǔ)設(shè)施覆蓋度:云廠商更廣闊的基礎(chǔ)設(shè)施覆蓋度意味著客戶在進(jìn)行大數(shù)據(jù)處理時(shí)的延遲時(shí)間更少,并可以選擇本地化的部署方式,這對于需要低延時(shí)以及數(shù)據(jù)駐留合規(guī)性要求更為嚴(yán)格的國際化用戶尤為重要。云計(jì)算成本與效用:大數(shù)據(jù)的處理需要耗費(fèi)海量計(jì)算資源,因此計(jì)算效率與成本效益是客戶的重要考量因素。定制化核心基礎(chǔ)硬件能夠從底層增強(qiáng)云計(jì)算效率,從成本及能耗角度看也會帶來顯著提升。開源配套服務(wù):云平臺對于開源大數(shù)據(jù)工具更廣泛的配套服務(wù)以及更深度的融合決定了客戶利用開源工具構(gòu)建大數(shù)據(jù)平臺的難易度與開發(fā)成本,客戶更傾向于使用開源友好度高的云平臺服務(wù)。綜合比較AWS,Azure與GCP三大全球性云廠商,AWS在基礎(chǔ)設(shè)施覆蓋的廣度、云計(jì)算優(yōu)化的深度、以及生態(tài)中開源配套服務(wù)的豐富度上均有一定優(yōu)勢,與當(dāng)下處理復(fù)雜數(shù)據(jù)類型、重分析呈現(xiàn)的大數(shù)據(jù)熱點(diǎn)開發(fā)組件契合度較高,是大數(shù)據(jù)云基礎(chǔ)平臺的優(yōu)質(zhì)選擇?;A(chǔ)設(shè)施覆蓋度 云計(jì)算成本與效用 開源配套服務(wù)24大數(shù)據(jù)工具熱力值說明03說明(1/2):熱力值意義及數(shù)據(jù)采集來源:公開資料整理,艾瑞咨詢研究院自主研究及繪制。25熱力值意義本報(bào)告中所指熱力趨勢是從開發(fā)者視角所做的研究判斷,通過對開發(fā)者圍繞開源社區(qū)相關(guān)行為的定量分析,綜合得到熱力值,是開發(fā)者對該開源大數(shù)據(jù)工具的關(guān)注、參與、討論、貢獻(xiàn)的綜合體現(xiàn)。因此開源大數(shù)據(jù)工具的熱力值越高,代表該工具能夠更快速的迭代,受到更精細(xì)的優(yōu)化打磨。從應(yīng)用視角看,該開源工具更易被使用,并在應(yīng)用場景中被廣泛推開,即熱力值由開發(fā)者端傳導(dǎo)至應(yīng)用端。事實(shí)上,許多開源大數(shù)據(jù)工具的應(yīng)用者同時(shí)也是開發(fā)者,他們針對實(shí)踐中的問題持續(xù)優(yōu)化大數(shù)據(jù)工具,將解決方案回饋至開發(fā)社區(qū)。基礎(chǔ)數(shù)據(jù)【數(shù)據(jù)來源】GH

Archive:

https:///;

Github

Stars

Explorer:

https://emanuelef.github.io/daily-stars-explorer【數(shù)據(jù)采集時(shí)間】起始時(shí)間為最早有記錄時(shí)間,終止時(shí)間為2024年6月30日【數(shù)據(jù)采集對象】開源大數(shù)據(jù)工具所對應(yīng)的Github代碼倉(

Repository

),而非對應(yīng)的Github項(xiàng)目(

Project

)【選取范圍及指標(biāo)意義】指標(biāo)選取范圍為GH

Archive可提供的17類Github事件,事件定義遵循GH

Archive中對應(yīng)的屬性說明。【指標(biāo)選定邏輯】基于開發(fā)者在開源社區(qū)(Github)中的基礎(chǔ)行為,選取Star、Fork、Issue、Commit、Pull

Request五項(xiàng)核心指標(biāo),其他Github事件或?yàn)榇宋孱愂录膹膶偈录蚱浔旧硪话阈詫傩暂^低。以下表格為GH

Archive

中所列舉的

17

類事件,

標(biāo)色事件為本報(bào)告選取的五項(xiàng)基礎(chǔ)指標(biāo)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論