Spark大數(shù)據(jù)分析實務(wù) 課件項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0

上傳人：y*** IP屬地：山東上傳時間：2024-06-29 格式：PPTX 頁數(shù)：18 大小：177.24KB 積分：12 舉報 版權(quán)申訴

Spark大數(shù)據(jù)分析實務(wù) 課件項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第2頁

Spark大數(shù)據(jù)分析實務(wù) 課件項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第3頁

Spark大數(shù)據(jù)分析實務(wù) 課件項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第4頁

Spark大數(shù)據(jù)分析實務(wù) 課件項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第5頁

已閱讀5頁，還剩13頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析技能拓展+測試題技能拓展深度學(xué)習(xí)、勇于實踐是增強(qiáng)本領(lǐng)的重要途徑，通過多方面深度學(xué)習(xí)來不斷更新知識、更新技能，進(jìn)而提高個人水平。DataFrame是一種以RDD為基礎(chǔ)的帶有Schema元信息的分布式數(shù)據(jù)集。RDD其實就是分布式的元素集合。在Spark中，對數(shù)據(jù)的所有操作不外乎創(chuàng)建RDD、轉(zhuǎn)化已有RDD以及調(diào)用RDD操作進(jìn)行求值。而在背后中，Spark會自動將RDD中的數(shù)據(jù)分發(fā)到集群上，并將操作并行化執(zhí)行。RDD的創(chuàng)建Spark提供了兩種創(chuàng)建RDD的方式：讀取外部數(shù)據(jù)集，以及在驅(qū)動器程序中對一個集合進(jìn)行并行化。創(chuàng)建RDD最簡單的方式就是將程序中一個已有的集合傳給SparkContext的parallelize()方法，可以在Shell中快速創(chuàng)建出RDD，然后對RDD進(jìn)行操作。不過，需要注意的是，除了開發(fā)原型和測試時，此方式用得并不多，原因是需要將整個數(shù)據(jù)集先放在一臺機(jī)器的內(nèi)存中。RDD的操作RDD支持兩種操作：轉(zhuǎn)換操作和行動操作。RDD的轉(zhuǎn)化操作是返回一個新的RDD的操作，如map()和filter()方法，而行動操作則是向驅(qū)動器程序返回結(jié)果或?qū)⒔Y(jié)果寫入外部系統(tǒng)的操作，會觸發(fā)實際的計算，如count()和first()方法。轉(zhuǎn)換操作RDD的轉(zhuǎn)換操作是返回新RDD的操作。轉(zhuǎn)換出來的RDD是惰性求值的，只有在行動操作中用到RDD時才會被計算。這樣的設(shè)計使得Spark可以更高效地執(zhí)行計算任務(wù)，避免了不必要的計算和數(shù)據(jù)移動。假定篩選電影評論數(shù)據(jù)電影類型包含Comedy的電影，可以使用轉(zhuǎn)化操作filter()。RDD的操作行動操作行動操作是第二種類型的RDD操作，會將最終求得的結(jié)果返回到驅(qū)動器程序，或?qū)懭胪獠看鎯ο到y(tǒng)中。由于行動操作需要生成實際的輸出，會強(qiáng)制執(zhí)行求值必須用到的RDD的轉(zhuǎn)化操作。如想輸出數(shù)據(jù)信息，需要使用兩個行動操作來實現(xiàn)，用count()來返回計數(shù)結(jié)果，用take()來收集RDD中的一些元素，其輸出結(jié)果如圖所示。知識測試(1)下列關(guān)于SparkSQL框架的描述錯誤的是（）。A.SparkSQL可以從各種結(jié)構(gòu)化數(shù)據(jù)源（如JSON、Hive、Parquet等）中讀取數(shù)據(jù)。B.SparkSQL提供了一種特殊的RDD，叫作DataFrame。C.SparkSQL不僅支持通過spark-shell在Spark程序內(nèi)使用SQL語句進(jìn)行數(shù)據(jù)查詢。D.SparkSQL是一個用于處理結(jié)構(gòu)化數(shù)據(jù)的框架，可被視為一個分布式的SQL查詢引擎，提供了一個抽象的可編程數(shù)據(jù)模型RDD。(2)【多選題】下列關(guān)于DataFrame對象說法正確的是（）。A.DataFrame可以通過結(jié)構(gòu)化數(shù)據(jù)文件、外部數(shù)據(jù)庫、Spark計算過程中生成的RDD、Hive中的表等數(shù)據(jù)源進(jìn)行創(chuàng)建B.加載JSON文件創(chuàng)建DataFrame，可以使用format()方法和load()方法加載。C.SparkSQL可以通過load()方法將HDFS上的結(jié)構(gòu)化數(shù)據(jù)文件轉(zhuǎn)換為DataFrame。D.將RDD轉(zhuǎn)為DataFrame只能利用反射機(jī)制推斷RDD模式，再創(chuàng)建DataFrame知識測試（3）下列選項中，與SparkSQL交互的主要入口點(diǎn)的是（）。A.SparkSessionB.HiveContextC.SQLContextD.SparkContext（4）【多選題】Spark編程的上下文是（）。A.SparkContextB.SparkSessionC.SQLSessionD.SparkSQLContext知識測試（5）SparkSQL可以處理的數(shù)據(jù)源包括（）。A.Hive表B.數(shù)據(jù)文件、Hive表C.數(shù)據(jù)文件、Hive表、RDDD.數(shù)據(jù)文件、Hive表、RDD、外部數(shù)據(jù)庫（6）下列操作中，不是DataFrame的常用操作（）。A.printSchema()B.select()C.filter()D.sendto()知識測試(7)下列選項中常用于打印DataFrame數(shù)據(jù)模式的是（）。A.printSchema()B.show()C.first()D.collect()(8)SparkDataFrame中（）方法可以獲取若干行數(shù)據(jù)。A.first()B.head()C.take()D.collect()知識測試(9)【多選題】SparkDataFrame中（）方法可以返回一個Array對象。A.collect()B.take()C.takeAsList()D.collectAsList()(10)Spark中DataFrame的（）方法是進(jìn)行查詢前n行記錄。A.where()B.limit()C.sort()D.apply()技能測試測試1使用DataFrame查詢操作分析員工基本信息測試要點(diǎn)通過測試掌握SparkSQL的基本編程方法。熟悉RDD到DataFrame的轉(zhuǎn)化方法。技能測試需求說明某公司數(shù)據(jù)庫中有一份記錄了員工基本信息的數(shù)據(jù)，導(dǎo)出文件為employee.csv，員工基本信息的數(shù)據(jù)字段說明如表所示，主要包括了部門、員工id、員工姓名、雇用日期及工資5個字段。通過對數(shù)據(jù)進(jìn)行探索分析，分析每個部門的平均工資情況。字段字段說明dname部門名稱eid員工idename員工姓名hireDate雇用日期salary工資技能測試實現(xiàn)步驟讀取文件并加載成employeeRDD。生成一個StructType對象，包含了表的模式信息。對employeeRDD中的每一行元素都進(jìn)行解析。將employeeRDD轉(zhuǎn)化為DataFrame對象employeeDF。將employeeDF注冊為臨時表供查詢使用。使用SQL語句統(tǒng)計各個部門平均工資。技能測試測試2使用DataFrame查詢操作分析圖書信息測試要點(diǎn)掌握用結(jié)構(gòu)化數(shù)據(jù)源創(chuàng)建DataFrame的方法。熟悉利用DataFrame注冊成為臨時表，通過SQL語句查詢數(shù)據(jù)。技能測試需求說明書籍是人類進(jìn)步的階梯，為了助力建設(shè)全民終身學(xué)習(xí)的學(xué)習(xí)型社會、學(xué)習(xí)型大國，我們必須堅持發(fā)展素質(zhì)教育，讓每個人都能夠在閱讀中不斷成長和進(jìn)步。某出版社數(shù)據(jù)庫有一份記錄了圖書信息的相關(guān)數(shù)據(jù)，導(dǎo)出文件為book.txt。技能測試圖書信息的相關(guān)數(shù)據(jù)字段說明如表所示，主要包括序號、書名、評分、價格、出版社和圖書鏈接5個字段。為了實現(xiàn)對出版社的圖書量和書籍評分的統(tǒng)計，通過SparkSQL相關(guān)技術(shù)，實現(xiàn)對出版社的圖書量及書籍評分進(jìn)行統(tǒng)計。字段字段說明id序號idboo

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Spark大數(shù)據(jù)分析實務(wù) 課件 項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Spark大數(shù)據(jù)分析實務(wù) 課件項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0