PySpark大數(shù)據(jù)技術與應用課件 3.1 Spark SQL概述

上傳人：q*** IP屬地：山東上傳時間：2024-03-16 格式：PPTX 頁數(shù)：17 大?。?48.66KB 積分：12 舉報 版權申訴

PySpark大數(shù)據(jù)技術與應用課件 3.1 Spark SQL概述_第2頁

PySpark大數(shù)據(jù)技術與應用課件 3.1 Spark SQL概述_第3頁

PySpark大數(shù)據(jù)技術與應用課件 3.1 Spark SQL概述_第4頁

PySpark大數(shù)據(jù)技術與應用課件 3.1 Spark SQL概述_第5頁

已閱讀5頁，還剩12頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

SparkSQL概述1SparkSQL主要功能目錄SparkSQL起源與發(fā)展歷程2SparkSQL數(shù)據(jù)核心抽象DataFrame3SparkSQL是Spark用于處理結構化數(shù)據(jù)的一個組件，其編程抽象為DataFrame。作為分布式SQL查詢引擎，SparkSQL允許用戶通過SQL、DataFrameAPI和DataSetAPI這3種方式處理結構化數(shù)據(jù)。SparkSQL將關系處理與Spark函數(shù)編程相結合，并支持讀取多種數(shù)據(jù)源的數(shù)據(jù)，如CSV、JSON、JDBC、Hive等。Spark

SQL概述SparkSQL的起源與發(fā)展緊密相連于大數(shù)據(jù)處理技術的進步和需求，其前身是Shark，后來為了支持更廣泛的數(shù)據(jù)源和優(yōu)化性能，發(fā)展為全新的SparkSQL項目。SparkSQL的起源可以追溯到Hive。Hive作為Hadoop生態(tài)系統(tǒng)中的組件，主要服務于熟悉SQL但不熟悉MapReduce編程模型的用戶，它允許數(shù)據(jù)分析師使用SQL語句來操作HDFS上的數(shù)據(jù)。然而，Hive在執(zhí)行過程中存在大量的中間磁盤落地過程，導致效率低下。為了提高SQL-on-Hadoop的效率，Shark作為響應此需求的解決方案之一被提出。Shark修改了Hive架構中的內存管理、物理計劃、執(zhí)行模塊，并運行在Spark引擎上，使得SQL查詢速度得到顯著提升。Spark

SQL的起源與發(fā)展隨著技術的發(fā)展，Shark對Hive的過度依賴成為了限制Spark發(fā)展的瓶頸。因此，Spark團隊決定拋棄Shark的代碼，轉而開發(fā)全新的SparkSQL項目。SparkSQL不僅擺脫了對Hive的依賴，還支持多種數(shù)據(jù)源，如Hive、Parquet、JSON、JDBC等，同時采用了多種性能優(yōu)化技術，比如內存列存儲、字節(jié)碼生成和動態(tài)評估的成本模型等。從歷史的角度來看，SparkSQL的出現(xiàn)和發(fā)展體現(xiàn)了開源社區(qū)對于技術迭代的能力，即不斷推陳出新，以適應不斷變化的數(shù)據(jù)處理需求。如今，SparkSQL已經(jīng)成為ApacheSpark生態(tài)中最為活躍的子項目之一，它的重要性伴隨著ApacheSpark的發(fā)展而日益突顯。Spark

SQL的起源與發(fā)展1SparkSQL主要功能目錄SparkSQL起源與發(fā)展歷程2SparkSQL數(shù)據(jù)核心抽象DataFrame3SparkSQL允許開發(fā)人員通過SQL語句簡單快捷地操作海量結構化數(shù)據(jù)，進行大數(shù)據(jù)分析。多數(shù)據(jù)源支持：從各種結構化文件和數(shù)據(jù)庫中讀取數(shù)據(jù)進行高效分析。廣泛的連接性：提供JDBC和ODBC接口，不局限于Spark程序內查詢。緊密集成的分析能力：將SQL查詢與RDD結合，提供跨語言API支持復雜分析。模塊化協(xié)作：與Streaming、MLlib、GraphX等模塊緊密結合處理結構化數(shù)據(jù)。SparkSQL主要功能1SparkSQL主要功能目錄SparkSQL起源與發(fā)展歷程2SparkSQL數(shù)據(jù)核心抽象DataFrame3DataFrame：

SparkSQL的核心數(shù)據(jù)抽象，結合了RDD的彈性與SQL的操作便捷性定義與結構：帶模式的RDD（SchemaRDD），提供名稱和類型信息創(chuàng)建方式：支持從結構化文件、數(shù)據(jù)庫、Hive表等多源創(chuàng)建API支持：Scala、Java、Python、R語言的API兼容性高級特性：自Spark1.6起，DataSetAPI為DataFrame帶來類型安全擴展SparkSQL數(shù)據(jù)核心抽象DataFrame1.DataFrame概念NameAgeHeightStringIntDoubleStringIntDoubleStringIntDoubleDataFrame和RDD的共同特征不可變性：一旦創(chuàng)建，DataFrame和RDD中的數(shù)據(jù)不能被修改。如進行任何變更，會生成一個新的數(shù)據(jù)集。內存運行：在內存中執(zhí)行計算，這樣可以顯著提高處理速度。彈性分布式計算能力：利用Spark的彈性分布式數(shù)據(jù)集的特性來處理大規(guī)模數(shù)據(jù)。SparkSQL數(shù)據(jù)核心抽象DataFrame2.

DataFrame與RDD比較DataFrame與RDD的主要區(qū)別數(shù)據(jù)結構：DataFrame提供了一種高層次的抽象，類似于傳統(tǒng)數(shù)據(jù)庫中的二維表格，具有行和列。而RDD是一個分布式的彈性數(shù)據(jù)集，可以看做是一個不可變的分布式對象集合。數(shù)據(jù)處理：DataFrame專注于結構化數(shù)據(jù)，RDD適用于各類數(shù)據(jù)源，尤其是非結構化數(shù)據(jù)。性能優(yōu)化：DataFrame可以利用其結構化特性進行性能優(yōu)化，比如執(zhí)行代碼生成和列式存儲等，這些在RDD中不常見。API支持：DataFrame提供了更豐富的SQL類操作接口，而RDD的API更偏向于低層次的操作。SparkSQL數(shù)據(jù)核心抽象DataFrameDataFrame與RDD雖然都是Spark中重要的數(shù)據(jù)結構，但DataFrame通過提供結構化視圖，使得數(shù)據(jù)處理更加直觀和高效，而RDD則在處理非結構化數(shù)據(jù)時展現(xiàn)出更大的靈活性。SparkSQL數(shù)據(jù)核心抽象DataFrameDataFrame和DataSet都是SparkSQL中的重要數(shù)據(jù)結構，它們在類型系統(tǒng)、API支持和功能定位上存在一些差異。類型系統(tǒng)：DataFrame是DataSet[Row]的特例，它的每一行數(shù)據(jù)類型固定為Row。DataFrame通常只知道列字段，而不明確每一列的數(shù)據(jù)類型，在編譯時不做類型檢查。而DataSet是一個強類型的數(shù)據(jù)結構，用戶需要定義具體的類（如Car類、Person類），DataSet知道每一列的名稱和數(shù)據(jù)類型，提供了更嚴格的錯誤檢查機制。SparkSQL數(shù)據(jù)核心抽象DataFrame3.

DataFrame與DataSet的比較API支持：DataFrame提供了豐富的SQL類操作接口，可以方便地進行數(shù)據(jù)選擇、過濾、聚合等操作。DataSet則提供了更為豐富的API，包括了DataFrame的API以及更多針對特定類型的操作，這使得DataSet能夠提供更高層次的抽象和更強的類型安全性。功能定位：DataFrame主要用于結構化數(shù)據(jù)處理，它可以看作是傳統(tǒng)數(shù)據(jù)庫中二維表格的一種分布式實現(xiàn)。而DataSet則結合了RDD和DataFrame的優(yōu)點，不僅提供了結構化數(shù)據(jù)的處理能力，還允許用戶自定義數(shù)據(jù)類型，從而可以進行更加復雜的數(shù)據(jù)處理和分析?？偨Y來說，DataFrame和DataSet雖然在SparkSQL中都扮演著重要的角色，但DataFrame更適合那些不需要明確類型信息的通用數(shù)據(jù)處理任務，而DataSet則適用于需要強類型和復雜業(yè)務邏輯處理的場景。SparkSQL數(shù)據(jù)核心抽象DataFrameDataFrame為開發(fā)人員提供了更高級別的數(shù)據(jù)抽象，使得處理大型數(shù)據(jù)集更加容易。DataFrame優(yōu)點主要體現(xiàn)在以下兩個方面。性能優(yōu)勢：由于DataFrame引入了Schema，即數(shù)據(jù)結構的描述信息，因此后期Spark程序中的大量對象在進行網(wǎng)絡傳輸時，只需針對數(shù)據(jù)的內容進行序列化，而無需傳輸數(shù)據(jù)結構信息。這樣可以減少數(shù)據(jù)傳輸量，降低序列化和反序列的性能開銷，彌補了RDD在這方面的不足。減少內存垃圾回收：DataFrame利用了堆外內存（Off-heap），直接在操作系統(tǒng)層上構建對象，而不是使用堆中的內存。這樣可以節(jié)省堆內存空間，減少垃圾回收（GarbageCollection，GC）的頻率，提高程序運行效率，彌補了RDD在堆內存占用和垃圾回收方面的不足。

SparkSQL數(shù)據(jù)核心抽象DataFrame4.

DataFrame的優(yōu)點DataFrame在編譯時不會進行類型檢查，因而無法在編譯時發(fā)現(xiàn)錯誤

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

PySpark大數(shù)據(jù)技術與應用課件 3.1 Spark SQL概述

文檔簡介

溫馨提示

最新文檔

評論

PySpark大數(shù)據(jù)技術與應用 課件 3.1 Spark SQL概述

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

PySpark大數(shù)據(jù)技術與應用課件 3.1 Spark SQL概述