BigQuery：BigQuery企業(yè)級數(shù)據(jù)倉庫解決方案

上傳人：陳*** IP屬地：河北上傳時(shí)間：2024-10-04 格式：DOCX 頁數(shù)：28 大小：36.43KB 積分：6 舉報(bào) 版權(quán)申訴

BigQuery：BigQuery企業(yè)級數(shù)據(jù)倉庫解決方案_第2頁

BigQuery：BigQuery企業(yè)級數(shù)據(jù)倉庫解決方案_第3頁

BigQuery：BigQuery企業(yè)級數(shù)據(jù)倉庫解決方案_第4頁

BigQuery：BigQuery企業(yè)級數(shù)據(jù)倉庫解決方案_第5頁

已閱讀5頁，還剩23頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

BigQuery：BigQuery企業(yè)級數(shù)據(jù)倉庫解決方案1BigQuery簡介1.1BigQuery的核心概念BigQuery是GoogleCloud提供的一種全托管、低延遲、高擴(kuò)展性的企業(yè)級數(shù)據(jù)倉庫解決方案。它利用了Google的基礎(chǔ)設(shè)施，能夠處理PB級別的數(shù)據(jù)，提供近乎實(shí)時(shí)的分析能力。BigQuery的核心概念包括：數(shù)據(jù)表（Tables）：數(shù)據(jù)在BigQuery中以表的形式存儲。每個(gè)表都屬于一個(gè)特定的數(shù)據(jù)庫（Dataset），并且可以包含數(shù)以億計(jì)的行和數(shù)千列。數(shù)據(jù)庫（Datasets）：在BigQuery中，數(shù)據(jù)被組織在數(shù)據(jù)庫中。一個(gè)數(shù)據(jù)庫可以包含多個(gè)數(shù)據(jù)表，以及相關(guān)的元數(shù)據(jù)。項(xiàng)目（Projects）：項(xiàng)目是BigQuery中的最高級別組織單元，可以包含多個(gè)數(shù)據(jù)庫。SQL查詢：BigQuery使用標(biāo)準(zhǔn)SQL進(jìn)行數(shù)據(jù)查詢和分析，支持復(fù)雜的數(shù)據(jù)操作，如JOIN、GROUPBY等。分區(qū)表（PartitionedTables）：為了提高查詢性能，BigQuery支持分區(qū)表，數(shù)據(jù)根據(jù)時(shí)間或特定列的值進(jìn)行分區(qū)。聚簇列（ClusteringColumns）：通過指定聚簇列，BigQuery可以優(yōu)化數(shù)據(jù)存儲，使得查詢更高效。1.1.1示例：創(chuàng)建數(shù)據(jù)表和數(shù)據(jù)庫--創(chuàng)建數(shù)據(jù)庫

CREATEDATASETIFNOTEXISTSmy_dataset;

--創(chuàng)建數(shù)據(jù)表

CREATETABLEIFNOTEXISTSmy_dataset.my_table(

idINT64NOTNULL,

nameSTRING(100),

timestampTIMESTAMP,

ageINT64,

)PRIMARYKEY(id);1.1.2示例：分區(qū)表和聚簇列--創(chuàng)建分區(qū)表

CREATETABLEIFNOTEXISTSmy_dataset.my_partitioned_table(

idINT64NOTNULL,

nameSTRING(100),

timestampTIMESTAMP,

ageINT64,

)PRIMARYKEY(id)

PARTITIONBYDATE(timestamp);

--創(chuàng)建聚簇列

CREATETABLEIFNOTEXISTSmy_dataset.my_clustered_table(

idINT64NOTNULL,

nameSTRING(100),

timestampTIMESTAMP,

ageINT64,

)PRIMARYKEY(id)

CLUSTERBYname;1.2BigQuery與傳統(tǒng)數(shù)據(jù)倉庫的比較BigQuery與傳統(tǒng)數(shù)據(jù)倉庫（如Oracle、SQLServer等）的主要區(qū)別在于其設(shè)計(jì)和操作模式。BigQuery是為大規(guī)模數(shù)據(jù)處理和分析而設(shè)計(jì)的，它不需要管理硬件或軟件，所有的數(shù)據(jù)處理和存儲都在Google的云基礎(chǔ)設(shè)施上完成。這使得BigQuery能夠提供以下優(yōu)勢：高擴(kuò)展性：BigQuery可以自動擴(kuò)展以處理大量數(shù)據(jù)，無需預(yù)先配置硬件。低延遲查詢：BigQuery使用了列式存儲和智能掃描技術(shù)，能夠快速響應(yīng)查詢，即使在大規(guī)模數(shù)據(jù)集上也是如此。成本效益：BigQuery按查詢量計(jì)費(fèi)，無需預(yù)先購買硬件，這使得成本更加可預(yù)測和可控。易于集成：BigQuery可以與GoogleCloud的其他服務(wù)無縫集成，如Dataflow、Dataproc等，同時(shí)也支持多種數(shù)據(jù)導(dǎo)入和導(dǎo)出方式。1.2.1示例：BigQuery與傳統(tǒng)數(shù)據(jù)倉庫的性能比較假設(shè)有一個(gè)包含10億行數(shù)據(jù)的表，我們想要執(zhí)行一個(gè)簡單的聚合查詢，計(jì)算每個(gè)年齡組的人數(shù)。BigQuery查詢SELECTage,COUNT(*)ascount

FROMmy_dataset.my_table

GROUPBYage;傳統(tǒng)數(shù)據(jù)倉庫查詢在傳統(tǒng)數(shù)據(jù)倉庫中，執(zhí)行同樣的查詢可能需要幾分鐘到幾小時(shí)的時(shí)間，具體取決于硬件配置和數(shù)據(jù)量。而BigQuery通?？梢栽趲酌腌妰?nèi)返回結(jié)果。1.2.2示例：成本比較在BigQuery中，假設(shè)查詢了1TB的數(shù)據(jù)，成本大約是$5。而在傳統(tǒng)數(shù)據(jù)倉庫中，除了硬件成本，還需要考慮軟件許可、維護(hù)和升級等費(fèi)用，這些成本可能遠(yuǎn)高于BigQuery的按查詢量計(jì)費(fèi)模式。2BigQuery架構(gòu)與技術(shù)2.1分布式計(jì)算架構(gòu)BigQuery采用了一種高度優(yōu)化的分布式計(jì)算架構(gòu)，旨在處理大規(guī)模數(shù)據(jù)集的查詢和分析。這一架構(gòu)的核心優(yōu)勢在于其能夠并行處理數(shù)據(jù)，無需用戶管理任何硬件或軟件基礎(chǔ)設(shè)施。BigQuery的分布式計(jì)算架構(gòu)基于Google的大規(guī)模數(shù)據(jù)處理技術(shù)，如MapReduce和Dremel，后者是Google內(nèi)部用于處理大規(guī)模數(shù)據(jù)分析的系統(tǒng)。2.1.1原理BigQuery的架構(gòu)設(shè)計(jì)使得數(shù)據(jù)可以被快速地分割并行處理。當(dāng)用戶提交一個(gè)查詢時(shí)，BigQuery會將查詢分解為多個(gè)小任務(wù)，這些任務(wù)會被分配到不同的計(jì)算節(jié)點(diǎn)上并行執(zhí)行。每個(gè)節(jié)點(diǎn)只處理數(shù)據(jù)集的一部分，然后將結(jié)果匯總，以提供最終的查詢結(jié)果。這種并行處理能力使得BigQuery能夠在幾秒鐘內(nèi)返回對數(shù)萬億行數(shù)據(jù)的查詢結(jié)果。2.1.2內(nèi)容數(shù)據(jù)分區(qū)：BigQuery自動將數(shù)據(jù)分區(qū)存儲，以優(yōu)化查詢性能。數(shù)據(jù)可以按照時(shí)間戳、字符串或整數(shù)字段進(jìn)行分區(qū)。數(shù)據(jù)復(fù)制：為了提高查詢速度和可用性，BigQuery在多個(gè)地理位置上復(fù)制數(shù)據(jù)，確保數(shù)據(jù)的高可用性和快速訪問。負(fù)載均衡：BigQuery的架構(gòu)能夠自動平衡計(jì)算負(fù)載，確保資源的有效利用和查詢的快速響應(yīng)。2.2列式存儲與壓縮技術(shù)BigQuery使用列式存儲和壓縮技術(shù)來優(yōu)化數(shù)據(jù)存儲和查詢性能。列式存儲意味著數(shù)據(jù)在磁盤上按列而不是按行存儲，這在處理大量數(shù)據(jù)時(shí)特別有效，因?yàn)椴樵兺ǔＶ恍枰L問數(shù)據(jù)集的某些列，而不是所有列。2.2.1原理在列式存儲中，相同列的數(shù)據(jù)被存儲在一起，這使得BigQuery能夠在執(zhí)行查詢時(shí)只讀取需要的列，從而大大減少了磁盤I/O和數(shù)據(jù)傳輸量。此外，列式存儲還允許BigQuery對每一列應(yīng)用不同的壓縮算法，以進(jìn)一步減少存儲空間和提高查詢速度。2.2.2內(nèi)容列式存儲：每一列的數(shù)據(jù)被獨(dú)立存儲，使得查詢時(shí)可以只讀取相關(guān)的列，提高效率。壓縮算法：BigQuery使用多種壓縮算法，如Snappy和Zstd，根據(jù)數(shù)據(jù)類型和特性選擇最合適的壓縮方式。數(shù)據(jù)索引：BigQuery為每一列創(chuàng)建索引，以加速查詢過程。索引信息被存儲在列的頭部，使得查詢時(shí)可以快速定位到需要的數(shù)據(jù)。2.2.3示例假設(shè)我們有一個(gè)大型的銷售數(shù)據(jù)表，包含以下列：product_id、sale_date、quantity、price。如果我們只需要查詢特定日期的銷售總額，列式存儲和壓縮技術(shù)將顯著提高查詢效率。--SQL查詢示例

SELECTSUM(price*quantity)AStotal_sales

FROMsales

WHEREsale_date='2023-01-01';在這個(gè)例子中，BigQuery只需要讀取sale_date、quantity和price列，而不需要讀取整個(gè)行。此外，由于數(shù)據(jù)被壓縮存儲，讀取和計(jì)算所需的時(shí)間將大大減少。2.3結(jié)論BigQuery的分布式計(jì)算架構(gòu)和列式存儲與壓縮技術(shù)共同構(gòu)成了其高效、可擴(kuò)展和易于管理的數(shù)據(jù)倉庫解決方案。通過并行處理和優(yōu)化數(shù)據(jù)存儲方式，BigQuery能夠提供快速的查詢響應(yīng)時(shí)間，即使面對極其龐大的數(shù)據(jù)集也不例外。這些技術(shù)的結(jié)合使用，使得BigQuery成為企業(yè)級數(shù)據(jù)倉庫的首選解決方案之一。3BigQuery數(shù)據(jù)模型3.1表與視圖在BigQuery中，數(shù)據(jù)主要存儲在表中。表是數(shù)據(jù)的基本容器，可以包含大量的數(shù)據(jù)行和列。每個(gè)表都有一個(gè)唯一的標(biāo)識符，由項(xiàng)目ID、數(shù)據(jù)集ID和表ID組成。表中的數(shù)據(jù)可以通過SQL查詢進(jìn)行訪問和分析。3.1.1表的創(chuàng)建與使用創(chuàng)建一個(gè)表需要指定其結(jié)構(gòu)，包括列名和數(shù)據(jù)類型。例如，下面的SQL語句創(chuàng)建一個(gè)名為users的表，包含user_id、name和email三個(gè)字段：--創(chuàng)建一個(gè)名為users的表

CREATETABLE`myproject.mydataset.users`(

user_idINT64NOTNULL,

nameSTRING,

emailSTRING,

PRIMARYKEY(user_id)

);3.1.2視圖的創(chuàng)建與使用視圖是基于一個(gè)或多個(gè)表的虛擬表，通過SQL查詢定義。視圖可以簡化復(fù)雜的查詢，提供數(shù)據(jù)的邏輯視圖，而不需要物理存儲數(shù)據(jù)。例如，下面的SQL語句創(chuàng)建一個(gè)名為active_users的視圖，只包含過去30天內(nèi)活躍的用戶：--創(chuàng)建一個(gè)名為active_users的視圖

CREATEVIEW`myproject.mydataset.active_users`AS

SELECTuser_id,name,email

FROM`myproject.mydataset.users`

WHERElast_activity_date>=CURRENT_DATE()-INTERVAL'30'DAY;3.2分區(qū)表與聚簇3.2.1分區(qū)表分區(qū)表是BigQuery中用于優(yōu)化查詢性能和降低存儲成本的一種數(shù)據(jù)組織方式。BigQuery自動將數(shù)據(jù)存儲在基于分區(qū)鍵的多個(gè)物理分區(qū)中。分區(qū)可以基于時(shí)間戳或整數(shù)列進(jìn)行創(chuàng)建，例如：--創(chuàng)建一個(gè)基于時(shí)間戳分區(qū)的表

CREATETABLE`myproject.mydataset.log_events`(

event_idINT64NOTNULL,

user_idINT64NOTNULL,

event_timeTIMESTAMPNOTNULL,

event_typeSTRING,

PRIMARYKEY(event_id)

)

PARTITIONBY

_PARTITIONTIME

OPTIONS(

expiration_ms=7776000000,--90天后過期

require_partition_filter=TRUE

);3.2.2聚簇聚簇是BigQuery中另一種優(yōu)化查詢性能的策略，它根據(jù)一個(gè)或多個(gè)列的值對數(shù)據(jù)進(jìn)行物理排序。聚簇可以顯著減少掃描的數(shù)據(jù)量，從而提高查詢速度。例如，下面的SQL語句創(chuàng)建一個(gè)基于user_id列聚簇的表：--創(chuàng)建一個(gè)基于user_id列聚簇的表

CREATETABLE`myproject.mydataset.user_transactions`(

transaction_idINT64NOTNULL,

user_idINT64NOTNULL,

transaction_timeTIMESTAMPNOTNULL,

amountFLOAT64,

PRIMARYKEY(transaction_id)

)

CLUSTERBY

user_id;3.2.3分區(qū)與聚簇的結(jié)合使用分區(qū)和聚簇可以結(jié)合使用，以進(jìn)一步優(yōu)化查詢性能。例如，下面的SQL語句創(chuàng)建一個(gè)基于時(shí)間戳分區(qū)并按user_id聚簇的表：--創(chuàng)建一個(gè)基于時(shí)間戳分區(qū)并按user_id聚簇的表

CREATETABLE`myproject.mydataset.user_activity`(

activity_idINT64NOTNULL,

user_idINT64NOTNULL,

activity_timeTIMESTAMPNOTNULL,

activity_typeSTRING,

PRIMARYKEY(activity_id)

)

PARTITIONBY

_PARTITIONTIME

CLUSTERBY

user_id;通過結(jié)合使用分區(qū)和聚簇，可以針對特定的查詢模式進(jìn)行優(yōu)化，例如，當(dāng)查詢經(jīng)常需要按用戶ID和時(shí)間范圍篩選數(shù)據(jù)時(shí)，上述的表結(jié)構(gòu)可以顯著提高查詢效率。4數(shù)據(jù)導(dǎo)入與導(dǎo)出4.1使用Load與Copy命令4.1.1Load命令詳解在BigQuery中，LOAD命令用于將數(shù)據(jù)從GoogleCloudStorage導(dǎo)入到BigQuery表中。此命令允許你指定數(shù)據(jù)的格式（如CSV、JSON或Avro），以及如何處理數(shù)據(jù)中的字段。下面是一個(gè)使用LOAD命令的示例：--將GoogleCloudStorage中的CSV文件導(dǎo)入到BigQuery表中

LOADTABLE`my-project.my_dataset.my_table`

FROM'gs://my-bucket/data.csv'

WITHSCHEMA=[

{name:'column1',type:'STRING'},

{name:'column2',type:'INTEGER'},

{name:'column3',type:'FLOAT'}

]

CSV

IGNOREUNKNOWNVALUES

MAXBADRECORDS=10解釋:-my-project.my_dataset.my_table是目標(biāo)BigQuery表的完整路徑。-'gs://my-bucket/data.csv'是包含數(shù)據(jù)的GoogleCloudStorage文件的URL。-WITHSCHEMA子句定義了表的模式，即列名和數(shù)據(jù)類型。-CSV指定數(shù)據(jù)文件的格式。-IGNOREUNKNOWNVALUES表示如果數(shù)據(jù)中存在模式中未定義的列，將忽略這些列。-MAXBADRECORDS=10設(shè)置了導(dǎo)入過程中允許的最大錯(cuò)誤記錄數(shù)。4.1.2Copy命令詳解COPY命令用于在BigQuery內(nèi)部復(fù)制數(shù)據(jù)，通常用于將數(shù)據(jù)從一個(gè)表復(fù)制到另一個(gè)表，或者在不同的項(xiàng)目或數(shù)據(jù)集之間移動數(shù)據(jù)。下面是一個(gè)使用COPY命令的示例：--將數(shù)據(jù)從一個(gè)表復(fù)制到另一個(gè)表

COPYTABLE`source_project.source_dataset.source_table`

TO`destination_project.destination_dataset.destination_table`解釋:-source_project.source_dataset.source_table是源表的完整路徑。-destination_project.destination_dataset.destination_table是目標(biāo)表的完整路徑。4.1.3示例代碼假設(shè)我們有一個(gè)CSV文件存儲在GoogleCloudStorage中，文件名為data.csv，包含以下數(shù)據(jù)：name,age,salary

John,30,50000

Jane,25,45000我們將使用以下LOAD命令將數(shù)據(jù)導(dǎo)入到BigQuery表my_table中：--導(dǎo)入CSV數(shù)據(jù)到BigQuery表

LOADTABLE`my-project.my_dataset.my_table`

FROM'gs://my-bucket/data.csv'

WITHSCHEMA=[

{name:'name',type:'STRING'},

{name:'age',type:'INTEGER'},

{name:'salary',type:'FLOAT'}

]

CSV

IGNOREUNKNOWNVALUES

MAXBADRECORDS=10導(dǎo)入后，我們可以通過以下COPY命令將數(shù)據(jù)復(fù)制到另一個(gè)表my_table_copy：--復(fù)制BigQuery表中的數(shù)據(jù)

COPYTABLE`my-project.my_dataset.my_table`

TO`my-project.my_dataset.my_table_copy`4.2導(dǎo)出數(shù)據(jù)到GoogleCloudStorageBigQuery提供了EXPORT命令，用于將數(shù)據(jù)導(dǎo)出到GoogleCloudStorage。這通常用于將查詢結(jié)果或表數(shù)據(jù)保存為文件，以便在其他系統(tǒng)中使用或進(jìn)行進(jìn)一步處理。下面是一個(gè)使用EXPORT命令的示例：--將BigQuery表導(dǎo)出到GoogleCloudStorage

EXPORTTABLE`my-project.my_dataset.my_table`

TO'gs://my-bucket/exported_data.csv'

WITHFORMAT='CSV'解釋:-my-project.my_dataset.my_table是要導(dǎo)出的BigQuery表的完整路徑。-'gs://my-bucket/exported_data.csv'是目標(biāo)GoogleCloudStorage文件的URL。-WITHFORMAT='CSV'指定導(dǎo)出文件的格式。4.2.1示例代碼假設(shè)我們有一個(gè)BigQuery表my_table，我們想要將此表的數(shù)據(jù)導(dǎo)出到GoogleCloudStorage中的CSV文件：--導(dǎo)出BigQuery表到GoogleCloudStorage

EXPORTTABLE`my-project.my_dataset.my_table`

TO'gs://my-bucket/exported_data.csv'

WITHFORMAT='CSV'導(dǎo)出后，exported_data.csv文件將包含my_table中的所有數(shù)據(jù)，格式為CSV，可以輕松地在其他系統(tǒng)中讀取和處理。通過上述LOAD和COPY命令，以及EXPORT命令的使用，你可以有效地在BigQuery和GoogleCloudStorage之間移動數(shù)據(jù)，這對于數(shù)據(jù)處理和分析流程的自動化和優(yōu)化至關(guān)重要。5BigQuery查詢語言5.1SQL基礎(chǔ)在BigQuery中，SQL（StructuredQueryLanguage）是用于查詢和管理數(shù)據(jù)的主要語言。BigQuery支持標(biāo)準(zhǔn)SQL，這使得數(shù)據(jù)分析師和工程師能夠使用熟悉的語法來操作大規(guī)模數(shù)據(jù)集。5.1.1基本查詢語句BigQuery中的基本SQL查詢包括SELECT、FROM、WHERE等關(guān)鍵字，用于從數(shù)據(jù)表中選擇特定的數(shù)據(jù)行和列。示例代碼--查詢示例：從`bigquery-public-data.samples.gsod`表中選擇特定年份的溫度數(shù)據(jù)

SELECT

year,

month,

day,

mean_temp

FROM

`bigquery-public-data.samples.gsod`

WHERE

year=2014在這個(gè)例子中，我們從bigquery-public-data.samples.gsod表中選擇了year、month、day和mean_temp列，并通過WHERE子句限制了查詢結(jié)果只包含2014年的數(shù)據(jù)。5.1.2數(shù)據(jù)過濾使用WHERE子句可以過濾數(shù)據(jù)，只返回滿足特定條件的行。示例代碼--過濾示例：查詢2014年中溫度高于平均值的記錄

SELECT

year,

month,

day,

mean_temp

FROM

`bigquery-public-data.samples.gsod`

WHERE

year=2014

ANDmean_temp>(

SELECT

AVG(mean_temp)

FROM

`bigquery-public-data.samples.gsod`

WHERE

year=2014

)此查詢首先計(jì)算2014年的平均溫度，然后返回所有溫度高于該平均值的記錄。5.1.3聚合函數(shù)BigQuery支持多種聚合函數(shù)，如COUNT、SUM、AVG等，用于對數(shù)據(jù)進(jìn)行匯總分析。示例代碼--聚合函數(shù)示例：計(jì)算2014年每個(gè)月的平均溫度

SELECT

month,

AVG(mean_temp)ASaverage_temperature

FROM

`bigquery-public-data.samples.gsod`

WHERE

year=2014

GROUPBY

month這個(gè)查詢使用AVG函數(shù)計(jì)算每個(gè)月的平均溫度，并使用GROUPBY子句按月份分組數(shù)據(jù)。5.2高級查詢技巧BigQuery提供了許多高級查詢功能，包括子查詢、連接、窗口函數(shù)等，這些功能可以處理更復(fù)雜的數(shù)據(jù)分析需求。5.2.1子查詢子查詢是在一個(gè)查詢語句中嵌套另一個(gè)查詢語句，用于獲取更精細(xì)的數(shù)據(jù)結(jié)果。示例代碼--子查詢示例：找出2014年中溫度高于所有年份平均溫度的記錄

SELECT

year,

month,

day,

mean_temp

FROM

`bigquery-public-data.samples.gsod`

WHERE

year=2014

ANDmean_temp>(

SELECT

AVG(mean_temp)

FROM

`bigquery-public-data.samples.gsod`

)在這個(gè)例子中，外部查詢選擇了2014年的所有記錄，而內(nèi)部子查詢計(jì)算了所有年份的平均溫度，外部查詢再根據(jù)這個(gè)平均值進(jìn)行過濾。5.2.2連接連接操作用于將兩個(gè)或多個(gè)表中的數(shù)據(jù)行組合在一起，基于它們之間的共同列。示例代碼--連接示例：將`bigquery-public-data.samples.gsod`表與`bigquery-public-data.samples.stations`表連接，獲取站點(diǎn)信息

SELECT

gsod.year,

gsod.month,

gsod.day,

gsod.mean_temp,

stations.station_name

FROM

`bigquery-public-data.samples.gsod`ASgsod

JOIN

`bigquery-public-data.samples.stations`ASstations

gsod.station=stations.station_id

WHERE

gsod.year=2014這里，我們使用JOIN關(guān)鍵字將兩個(gè)表連接在一起，基于station和station_id列的匹配，從而獲取每個(gè)溫度記錄對應(yīng)的站點(diǎn)名稱。5.2.3窗口函數(shù)窗口函數(shù)允許在數(shù)據(jù)集的特定窗口或分組上執(zhí)行計(jì)算，而無需進(jìn)行多次查詢或自連接。示例代碼--窗口函數(shù)示例：計(jì)算每個(gè)站點(diǎn)的平均溫度，并找出每個(gè)站點(diǎn)中溫度最高的記錄

SELECT

station,

year,

month,

day,

mean_temp,

AVG(mean_temp)OVER(PARTITIONBYstation)ASstation_avg_temp

FROM

`bigquery-public-data.samples.gsod`

WHERE

year=2014在這個(gè)例子中，AVG(mean_temp)OVER(PARTITIONBYstation)是一個(gè)窗口函數(shù)，它計(jì)算每個(gè)站點(diǎn)的平均溫度，而無需將數(shù)據(jù)分組和重新聚合。通過這些基礎(chǔ)和高級的SQL查詢技巧，BigQuery用戶可以有效地分析和理解其數(shù)據(jù)倉庫中的大量數(shù)據(jù)，從而做出更明智的業(yè)務(wù)決策。6性能優(yōu)化6.1查詢優(yōu)化策略在BigQuery中，查詢優(yōu)化是提升數(shù)據(jù)倉庫性能的關(guān)鍵。以下是一些核心策略：6.1.1使用WHERE子句過濾數(shù)據(jù)--示例查詢：從銷售數(shù)據(jù)中篩選出特定年份的記錄

SELECT*FROM`project.dataset.sales`

WHEREYEAR(date)=2020;通過在查詢中加入WHERE子句，可以減少掃描的數(shù)據(jù)量，從而提高查詢速度。6.1.2選擇性使用JOIN操作--示例查詢：連接銷售數(shù)據(jù)與產(chǎn)品信息，僅當(dāng)需要時(shí)使用

SELECTduct_id,duct_name,s.quantity

FROM`project.dataset.sales`s

JOIN`ducts`pONduct_id=duct_id;避免不必要的JOIN操作，確保只在需要時(shí)連接表，以減少數(shù)據(jù)處理量。6.1.3利用GROUPBY和HAVING子句--示例查詢：按產(chǎn)品類別分組銷售數(shù)據(jù)，篩選出銷售額超過10000的類別

SELECTproduct_category,SUM(sales_amount)astotal_sales

FROM`project.dataset.sales`

GROUPBYproduct_category

HAVINGtotal_sales>10000;GROUPBY和HAVING可以有效減少結(jié)果集的大小，同時(shí)提供更精確的數(shù)據(jù)分析。6.1.4優(yōu)化ORDERBY和LIMIT使用--示例查詢：獲取銷售額最高的前10個(gè)產(chǎn)品

SELECTproduct_id,SUM(sales_amount)astotal_sales

FROM`project.dataset.sales`

GROUPBYproduct_id

ORDERBYtotal_salesDESC

LIMIT10;先使用ORDERBY對結(jié)果進(jìn)行排序，再使用LIMIT限制結(jié)果集的大小，可以提高查詢效率。6.2數(shù)據(jù)分區(qū)與索引6.2.1數(shù)據(jù)分區(qū)BigQuery支持自動和手動分區(qū)，通過分區(qū)可以顯著提高查詢性能。自動分區(qū)--創(chuàng)建自動分區(qū)表

CREATETABLE`project.dataset.sales`(

sale_idINT64,

sale_dateTIMESTAMP,

product_idINT64,

sales_amountFLOAT64

)

PARTITIONBY_PARTITIONTIME;自動分區(qū)基于數(shù)據(jù)的插入時(shí)間進(jìn)行分區(qū)。手動分區(qū)--創(chuàng)建手動分區(qū)表

CREATETABLE`project.dataset.sales`(

sale_idINT64,

sale_dateTIMESTAMP,

product_idINT64,

sales_amountFLOAT64

)

PARTITIONBYDATE(sale_date);手動分區(qū)允許根據(jù)特定列的值進(jìn)行分區(qū)，如上述示例中的sale_date。6.2.2索引雖然BigQuery不支持傳統(tǒng)意義上的索引，但通過優(yōu)化表結(jié)構(gòu)和查詢設(shè)計(jì)，可以達(dá)到類似的效果。使用CLUSTEREDINDEX--創(chuàng)建CLUSTEREDINDEX表

CREATETABLE`project.dataset.sales`(

sale_idINT64,

sale_dateTIMESTAMP,

product_idINT64,

sales_amountFLOAT64

)

CLUSTERBYproduct_id;CLUSTERBY語句可以將數(shù)據(jù)按特定列的值進(jìn)行物理排序，從而在查詢時(shí)減少數(shù)據(jù)掃描量。選擇合適的列類型使用更緊湊的數(shù)據(jù)類型，如使用INT64代替STRING來存儲數(shù)字，可以減少存儲空間，提高查詢速度。6.2.3示例：結(jié)合分區(qū)和CLUSTERBY--創(chuàng)建手動分區(qū)和CLUSTERBY的表

CREATETABLE`project.dataset.sales`(

sale_idINT64,

sale_dateTIMESTAMP,

product_idINT64,

sales_amountFLOAT64

)

PARTITIONBYDATE(sale_date)

CLUSTERBYproduct_id;此表結(jié)構(gòu)允許按日期快速訪問數(shù)據(jù)，并按產(chǎn)品ID進(jìn)行物理排序，從而在查詢特定產(chǎn)品時(shí)提高效率。通過上述策略，可以顯著提升BigQuery的查詢性能和數(shù)據(jù)處理效率，確保企業(yè)級數(shù)據(jù)倉庫解決方案的高效運(yùn)行。7安全與訪問控制7.1IAM角色與權(quán)限在BigQuery中，IAM（IdentityandAccessManagement）是用于管理用戶和系統(tǒng)對BigQuery資源訪問的關(guān)鍵組件。通過IAM，可以精細(xì)地控制誰可以訪問哪些數(shù)據(jù)，以及他們可以執(zhí)行哪些操作。IAM基于角色，每個(gè)角色都有一組預(yù)定義的權(quán)限，這些權(quán)限決定了用戶可以執(zhí)行的操作。7.1.1角色示例BigQuery提供了多種預(yù)定義角色，例如：roles/bigquery.dataViewer：允許用戶查看數(shù)據(jù)，但不能修改或刪除。roles/bigquery.dataEditor：允許用戶查看和修改數(shù)據(jù)，但不能刪除數(shù)據(jù)集。roles/bigquery.dataOwner：允許用戶完全控制數(shù)據(jù)集，包括查看、修改、刪除數(shù)據(jù)集及其內(nèi)容。7.1.2權(quán)限分配代碼示例#導(dǎo)入GoogleCloudClientLibrary

fromgoogle.cloudimportbigquery

#創(chuàng)建BigQuery客戶端

client=bigquery.Client()

#指定項(xiàng)目和數(shù)據(jù)集

project_id='your-project-id'

dataset_id='your-dataset-id'

#獲取數(shù)據(jù)集

dataset_ref=client.dataset(dataset_id,project=project_id)

dataset=client.get_dataset(dataset_ref)

#定義成員和角色

member='user-testuser@'

role='roles/bigquery.dataViewer'

#更新數(shù)據(jù)集的IAM策略

policy=client.get_iam_policy(dataset_ref)

policy.bindings.append({

'role':role,

'members':{member},

})

client.set_iam_policy(dataset_ref,policy)7.1.3解釋上述代碼示例展示了如何使用PythonSDK為BigQuery數(shù)據(jù)集分配IAM角色。首先，我們導(dǎo)入了bigquery模塊并創(chuàng)建了一個(gè)客戶端。然后，我們指定了項(xiàng)目ID和數(shù)據(jù)集ID，獲取了數(shù)據(jù)集的引用。接下來，我們定義了要分配角色的成員（在這個(gè)例子中是一個(gè)用戶）和角色（roles/bigquery.dataViewer）。最后，我們通過更新數(shù)據(jù)集的IAM策略來分配角色。7.2數(shù)據(jù)加密與隱私保護(hù)BigQuery提供了多種數(shù)據(jù)加密和隱私保護(hù)機(jī)制，以確保數(shù)據(jù)的安全性和合規(guī)性。這些機(jī)制包括：服務(wù)器端加密：BigQuery默認(rèn)使用服務(wù)器端加密來保護(hù)數(shù)據(jù)，使用Google管理的密鑰。客戶管理的密鑰：允許用戶使用自己的密鑰來加密數(shù)據(jù)，增加了對數(shù)據(jù)控制的靈活性。數(shù)據(jù)屏蔽：通過動態(tài)數(shù)據(jù)屏蔽，可以在查詢結(jié)果中隱藏敏感信息，只顯示給具有特定權(quán)限的用戶。數(shù)據(jù)生命周期管理：可以設(shè)置數(shù)據(jù)的保留期限，自動刪除過期數(shù)據(jù)，減少數(shù)據(jù)泄露的風(fēng)險(xiǎn)。7.2.1數(shù)據(jù)加密代碼示例#導(dǎo)入GoogleCloudClientLibrary

fromgoogle.cloudimportbigquery

#創(chuàng)建BigQuery客戶端

client=bigquery.Client()

#指定項(xiàng)目和數(shù)據(jù)集

project_id='your-project-id'

dataset_id='your-dataset-id'

#獲取數(shù)據(jù)集

dataset_ref=client.dataset(dataset_id,project=project_id)

dataset=client.get_dataset(dataset_ref)

#使用客戶管理的密鑰進(jìn)行加密

kms_key_name='projects/your-project/locations/global/keyRings/your-key-ring/cryptoKeys/your-crypto-key'

dataset.default_kms_key_name=kms_key_name

dataset=client.update_dataset(dataset,['default_kms_key_name'])7.2.2解釋這段代碼示例展示了如何使用客戶管理的密鑰（CMK）來加密BigQuery數(shù)據(jù)集中的數(shù)據(jù)。我們首先創(chuàng)建了BigQuery客戶端，并獲取了數(shù)據(jù)集的引用。然后，我們指定了一個(gè)KMS密鑰（kms_key_name），并將其設(shè)置為數(shù)據(jù)集的默認(rèn)KMS密鑰。最后，我們更新了數(shù)據(jù)集，以應(yīng)用新的加密設(shè)置。通過這些機(jī)制，BigQuery確保了數(shù)據(jù)的安全性和隱私，使企業(yè)能夠放心地在云環(huán)境中存儲和處理敏感數(shù)據(jù)。8成本管理8.1BigQuery定價(jià)模型BigQuery的定價(jià)模型基于按使用量付費(fèi)的原則，主要分為查詢成本和存儲成本兩大部分。此外，數(shù)據(jù)傳輸、流式插入等操作也會產(chǎn)生費(fèi)用。8.1.1查詢成本BigQuery根據(jù)查詢處理的數(shù)據(jù)量來計(jì)費(fèi)，而不是根據(jù)查詢的復(fù)雜度。這意味著，即使查詢非常復(fù)雜，但如果處理的數(shù)據(jù)量小，成本也會相對較低。查詢成本的計(jì)算公式如下：查詢成本查詢處理的數(shù)據(jù)量：以太字節(jié)（TB）為單位，包括從BigQuery表中讀取的數(shù)據(jù)量和查詢過程中生成的臨時(shí)數(shù)據(jù)量。查詢單價(jià)：根據(jù)地區(qū)和是否使用預(yù)留容量（On-Demand或Flat-Rate）而有所不同。示例代碼假設(shè)我們有一個(gè)BigQuery表my_dataset.my_table，我們想要查詢其中的特定數(shù)據(jù)，以下是使用Python的google-cloud-bigquery庫進(jìn)行查詢的示例代碼：fromgoogle.cloudimportbigquery

#初始化BigQuery客戶端

client=bigquery.Client()

#定義查詢語句

query="""

SELECTcolumn1,column2

FROM`my_dataset.my_table`

WHEREcolumn1='some_value'

"""

#執(zhí)行查詢并獲取結(jié)果

query_job=client.query(query)

rows=query_job.result()

#打印查詢結(jié)果

forrowinrows:

print(row.column1,row.column2)8.1.2存儲成本存儲成本基于在BigQuery中存儲的數(shù)據(jù)量。BigQuery提供了兩種存儲選項(xiàng)：標(biāo)準(zhǔn)存儲和冷存儲，冷存儲適用于不經(jīng)常訪問的數(shù)據(jù)，成本更低。示例數(shù)據(jù)假設(shè)我們有以下數(shù)據(jù)存儲在BigQuery中：TableNameDataSize(GB)my_table1100my_table2200my_table33008.1.3總成本計(jì)算總成本是查詢成本和存儲成本的總和。此外，如果使用了數(shù)據(jù)傳輸或流式插入，也需要將這些成本加入總成本中。8.2成本控制與預(yù)算設(shè)置BigQuery提供了多種工具和策略來幫助用戶控制成本，包括預(yù)算設(shè)置、成本管理API、查詢優(yōu)化等。8.2.1預(yù)算設(shè)置預(yù)算設(shè)置允許用戶為BigQuery使用設(shè)定一個(gè)上限，以避免意外的高額賬單。用戶可以在GoogleCloudConsole中設(shè)置預(yù)算，或者使用API進(jìn)行更精細(xì)的控制。示例代碼使用GoogleCloud的BudgetAPI來設(shè)置預(yù)算，以下是使用Python的示例代碼：fromgoogle.cloudimportbilling_budgets_v1

#初始化BudgetAPI客戶端

client=billing_budgets_v1.BudgetServiceClient()

#定義預(yù)算參數(shù)

budget={

"budget_filter":{

"projects":["projects/123456789"],

"credit_types_treatment":"INCLUDE_ALL_CREDITS",

"services":[""],

"amount":{

"specified_amount":{

"currency_code":"USD",

"units":100,

"nanos":0,

}

"threshold_rules":[

{

"threshold_percent":80,

"spend_basis":"CURRENT_SPEND",

}

#創(chuàng)建預(yù)算

response=client.create_budget(parent="billingAccounts/123456",budget=budget)

print("Budgetcreated:",)8.2.2成本管理API成本管理API提供了更深入的成本分析和優(yōu)化建議。用戶可以使用API來獲取成本報(bào)告、設(shè)置成本警報(bào)、優(yōu)化查詢等。8.2.3查詢優(yōu)化優(yōu)化查詢可以顯著降低查詢成本。以下是一些查詢優(yōu)化的建議：使用分區(qū)表：如果數(shù)據(jù)量大，可以使用分區(qū)表來減少查詢的數(shù)據(jù)量。使用緩存：如果查詢結(jié)果不會改變，可以使用緩存來避免重復(fù)查詢。限制查詢結(jié)果：使用LIMIT語句來限制返回的結(jié)果數(shù)量，減少數(shù)據(jù)傳輸成本。示例代碼使用分區(qū)表和LIMIT語句來優(yōu)化查詢，以下是使用Python的示例代碼：fromgoogle.cloudimportbigquery

#初始化BigQuery客戶端

client=bigquery.Client()

#定義查詢語句，使用分區(qū)表和LIMIT

query="""

SELECTcolumn1,column2

FROM`my_dataset.my_partitioned_table`

WHERE_PARTITIONTIME>=TIMESTAMP('2023-01-01')

AND_PARTITIONTIME<TIMESTAMP('2023-02-01')

LIMIT1000

"""

#執(zhí)行查詢并獲取結(jié)果

query_job=client.query(query)

rows=query_job.result()

#打印查詢結(jié)果

forrowinrows:

print(row.column1,row.column2)通過以上方法，用戶可以有效地管理BigQuery的成本，確保其在預(yù)算范圍內(nèi)運(yùn)行。9BigQuery高級功能9.1機(jī)器學(xué)習(xí)集成在大數(shù)據(jù)分析領(lǐng)域，將數(shù)據(jù)倉庫與機(jī)器學(xué)習(xí)技術(shù)相結(jié)合，可以極大地提升數(shù)據(jù)洞察的速度和準(zhǔn)確性。BigQuery通過內(nèi)置的機(jī)器學(xué)習(xí)功能，允許用戶直接在BigQuery中構(gòu)建和部署機(jī)器學(xué)習(xí)模型，無需將數(shù)據(jù)移動到其他平臺，簡化了數(shù)據(jù)科學(xué)家和分析師的工作流程。9.1.1原理BigQuery的機(jī)器學(xué)習(xí)功能基于GoogleCloud的AutoML和AIPlatform，提供了多種機(jī)器學(xué)習(xí)模型，包括線性回歸、邏輯回歸、隨機(jī)森林、梯度提升樹、K-means聚類、ARIMA時(shí)間序列預(yù)測等。這些模型可以直接在BigQuery的SQL查詢中調(diào)用，通過ML.*函數(shù)進(jìn)行數(shù)據(jù)的預(yù)處理、模型訓(xùn)練、預(yù)測和評估。9.1.2內(nèi)容線性回歸示例假設(shè)我們有一個(gè)銷售數(shù)據(jù)集，包含產(chǎn)品價(jià)格和銷售量，我們想要預(yù)測不同價(jià)格下的銷售量。--創(chuàng)建數(shù)據(jù)表

CREATETABLEsales_data(

priceINT64,

salesINT64

);

--插入示例數(shù)據(jù)

INSERTINTOsales_data(price,sales)

VALUES(100,1000),(150,900),(200,800),(250,700),(300,600);

--訓(xùn)練線性回歸模型

CREATEMODELsales_model

OPTIONS(model_type='linear_reg')AS

SELECTprice,sales

FROMsales_data;

--使用模型進(jìn)行預(yù)測

SELECT

price,

ML.PREDICT(STRUCT(priceASprice),sales_model)ASpredicted_sales

FROM(

SELECT100ASprice

UNIONALLSELECT200

UNIONALLSELECT300

);邏輯回歸示例如果我們有一個(gè)客戶流失數(shù)據(jù)集，包含客戶特征和是否流失的標(biāo)簽，我們可以使用邏輯回歸來預(yù)測客戶流失的可能性。--創(chuàng)建數(shù)據(jù)表

CREATETABLEchurn_data(

ageINT64,

incomeINT64,

churnBOOLEAN

);

--插入示例數(shù)據(jù)

INSERTINTOchurn_data(age,income,churn)

VALUES(25,50000,FALSE),(30,60000,TRUE),(35,70000,FALSE),(40,80000,TRUE),(45,90000,FALSE);

--訓(xùn)練邏輯回歸模型

CREATEMODELchurn_model

OPTIONS(model_type='logistic_reg')AS

SELECTage,income,churn

FROMchurn_data;

--使用模型進(jìn)行預(yù)測

SELECT

age,

income,

ML.PREDICT(STRUCT(ageASage,incomeASincome),churn_model)ASpredicted_churn

FROM(

SELECT25ASage,50000ASincome

UNIONALLSELECT35,70000

UNIONALLSELECT45,90000

);9.2實(shí)時(shí)數(shù)據(jù)分析BigQuery不僅支持批處理查詢，還支持實(shí)時(shí)數(shù)據(jù)流的分析，這對于需要即時(shí)響應(yīng)的場景，如實(shí)時(shí)監(jiān)控、實(shí)時(shí)報(bào)告等，非常有用。9.2.1原理BigQuery通過與GoogleCloudPub/Sub的集成，可以實(shí)時(shí)接收和處理數(shù)據(jù)流。數(shù)據(jù)流可以是來自傳感器、日志、交易系統(tǒng)等實(shí)時(shí)數(shù)據(jù)源。BigQuery使用流式數(shù)據(jù)處理技術(shù)，可以即時(shí)更新數(shù)據(jù)倉庫，并提供實(shí)時(shí)查詢和分析能力。9.2.2內(nèi)容實(shí)時(shí)數(shù)據(jù)流示例假設(shè)我們有一個(gè)實(shí)時(shí)的網(wǎng)站訪問日志數(shù)據(jù)流，我們想要實(shí)時(shí)監(jiān)控網(wǎng)站的訪問量。--創(chuàng)建數(shù)據(jù)表

CREATETABLEwebsite_logs(

timestampTIMESTAMP,

page_viewsINT64

);

--創(chuàng)建流式數(shù)據(jù)導(dǎo)入

CREATESTREAMINGIMPORTJOBSwebsite_logs_stream

TOwebsite_logs

WITH

data_source_format='CSV',

data_source='projects/my-project/topics/website-logs',

schema='timestamp:TIMESTAMP,page_views:INTEGER';

--實(shí)時(shí)查詢數(shù)據(jù)

SELECT

TIMESTAMP_TRUNC(timestamp,HOUR)AShour,

COUNT(page_views)AStotal_views

FROMwebsite_logs

WHEREtimestamp>TIMESTAMP_SUB(CURRENT_TIMESTAMP(),INTERVAL1HOUR)

GROUPBYhour

ORDERBYhourDESC;在這個(gè)例子中，我們首先創(chuàng)建了一個(gè)數(shù)據(jù)表website_logs來存儲網(wǎng)站訪問日志。然后，我們創(chuàng)建了一個(gè)流式數(shù)據(jù)導(dǎo)入作業(yè)website_logs_stream，將來自GoogleCloudPub/Sub主題website-logs的數(shù)據(jù)實(shí)時(shí)導(dǎo)入到website_logs表中。最后，我們執(zhí)行了一個(gè)實(shí)時(shí)查詢，統(tǒng)計(jì)過去一小時(shí)內(nèi)每個(gè)小時(shí)的網(wǎng)站訪問總量。10最佳實(shí)踐與案例研究10.1企業(yè)級部署策略在企業(yè)級部署中，BigQuery的高效利用需要精心規(guī)劃和策略。以下是一些關(guān)鍵的部署策略，旨在優(yōu)化性能、成本和數(shù)據(jù)安全性。10.1.1數(shù)據(jù)分區(qū)與集群原理BigQuery支持?jǐn)?shù)據(jù)分區(qū)和集群，這可以顯著提高查詢性能并降低存儲成本。數(shù)據(jù)分區(qū)是將表按時(shí)間

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

BigQuery：BigQuery企業(yè)級數(shù)據(jù)倉庫解決方案

文檔簡介

溫馨提示

最新文檔

評論

BigQuery：BigQuery企業(yè)級數(shù)據(jù)倉庫解決方案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔