Spark大數(shù)據(jù)分析實務(wù) 課件 項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第1頁
Spark大數(shù)據(jù)分析實務(wù) 課件 項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第2頁
Spark大數(shù)據(jù)分析實務(wù) 課件 項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第3頁
Spark大數(shù)據(jù)分析實務(wù) 課件 項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第4頁
Spark大數(shù)據(jù)分析實務(wù) 課件 項目4 基于Spark SQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析-技能拓展+測試題V1.0_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于SparkSQL實現(xiàn)廣告流量檢測數(shù)據(jù)探索分析技能拓展+測試題技能拓展深度學(xué)習(xí)、勇于實踐是增強(qiáng)本領(lǐng)的重要途徑,通過多方面深度學(xué)習(xí)來不斷更新知識、更新技能,進(jìn)而提高個人水平。DataFrame是一種以RDD為基礎(chǔ)的帶有Schema元信息的分布式數(shù)據(jù)集。RDD其實就是分布式的元素集合。在Spark中,對數(shù)據(jù)的所有操作不外乎創(chuàng)建RDD、轉(zhuǎn)化已有RDD以及調(diào)用RDD操作進(jìn)行求值。而在背后中,Spark會自動將RDD中的數(shù)據(jù)分發(fā)到集群上,并將操作并行化執(zhí)行。RDD的創(chuàng)建Spark提供了兩種創(chuàng)建RDD的方式:讀取外部數(shù)據(jù)集,以及在驅(qū)動器程序中對一個集合進(jìn)行并行化。創(chuàng)建RDD最簡單的方式就是將程序中一個已有的集合傳給SparkContext的parallelize()方法,可以在Shell中快速創(chuàng)建出RDD,然后對RDD進(jìn)行操作。不過,需要注意的是,除了開發(fā)原型和測試時,此方式用得并不多,原因是需要將整個數(shù)據(jù)集先放在一臺機(jī)器的內(nèi)存中。RDD的操作RDD支持兩種操作:轉(zhuǎn)換操作和行動操作。RDD的轉(zhuǎn)化操作是返回一個新的RDD的操作,如map()和filter()方法,而行動操作則是向驅(qū)動器程序返回結(jié)果或?qū)⒔Y(jié)果寫入外部系統(tǒng)的操作,會觸發(fā)實際的計算,如count()和first()方法。轉(zhuǎn)換操作RDD的轉(zhuǎn)換操作是返回新RDD的操作。轉(zhuǎn)換出來的RDD是惰性求值的,只有在行動操作中用到RDD時才會被計算。這樣的設(shè)計使得Spark可以更高效地執(zhí)行計算任務(wù),避免了不必要的計算和數(shù)據(jù)移動。假定篩選電影評論數(shù)據(jù)電影類型包含Comedy的電影,可以使用轉(zhuǎn)化操作filter()。RDD的操作行動操作行動操作是第二種類型的RDD操作,會將最終求得的結(jié)果返回到驅(qū)動器程序,或?qū)懭胪獠看鎯ο到y(tǒng)中。由于行動操作需要生成實際的輸出,會強(qiáng)制執(zhí)行求值必須用到的RDD的轉(zhuǎn)化操作。如想輸出數(shù)據(jù)信息,需要使用兩個行動操作來實現(xiàn),用count()來返回計數(shù)結(jié)果,用take()來收集RDD中的一些元素,其輸出結(jié)果如圖所示。知識測試(1)下列關(guān)于SparkSQL框架的描述錯誤的是()。A.SparkSQL可以從各種結(jié)構(gòu)化數(shù)據(jù)源(如JSON、Hive、Parquet等)中讀取數(shù)據(jù)。B.SparkSQL提供了一種特殊的RDD,叫作DataFrame。C.SparkSQL不僅支持通過spark-shell在Spark程序內(nèi)使用SQL語句進(jìn)行數(shù)據(jù)查詢。D.SparkSQL是一個用于處理結(jié)構(gòu)化數(shù)據(jù)的框架,可被視為一個分布式的SQL查詢引擎,提供了一個抽象的可編程數(shù)據(jù)模型RDD。(2)【多選題】下列關(guān)于DataFrame對象說法正確的是()。A.DataFrame可以通過結(jié)構(gòu)化數(shù)據(jù)文件、外部數(shù)據(jù)庫、Spark計算過程中生成的RDD、Hive中的表等數(shù)據(jù)源進(jìn)行創(chuàng)建B.加載JSON文件創(chuàng)建DataFrame,可以使用format()方法和load()方法加載。C.SparkSQL可以通過load()方法將HDFS上的結(jié)構(gòu)化數(shù)據(jù)文件轉(zhuǎn)換為DataFrame。D.將RDD轉(zhuǎn)為DataFrame只能利用反射機(jī)制推斷RDD模式,再創(chuàng)建DataFrame知識測試(3)下列選項中,與SparkSQL交互的主要入口點(diǎn)的是()。A.SparkSessionB.HiveContextC.SQLContextD.SparkContext(4)【多選題】Spark編程的上下文是()。A.SparkContextB.SparkSessionC.SQLSessionD.SparkSQLContext知識測試(5)SparkSQL可以處理的數(shù)據(jù)源包括()。A.Hive表B.數(shù)據(jù)文件、Hive表C.數(shù)據(jù)文件、Hive表、RDDD.數(shù)據(jù)文件、Hive表、RDD、外部數(shù)據(jù)庫(6)下列操作中,不是DataFrame的常用操作()。A.printSchema()B.select()C.filter()D.sendto()知識測試(7)下列選項中常用于打印DataFrame數(shù)據(jù)模式的是()。A.printSchema()B.show()C.first()D.collect()(8)SparkDataFrame中()方法可以獲取若干行數(shù)據(jù)。A.first()B.head()C.take()D.collect()知識測試(9)【多選題】SparkDataFrame中()方法可以返回一個Array對象。A.collect()B.take()C.takeAsList()D.collectAsList()(10)Spark中DataFrame的()方法是進(jìn)行查詢前n行記錄。A.where()B.limit()C.sort()D.apply()技能測試測試1使用DataFrame查詢操作分析員工基本信息測試要點(diǎn)通過測試掌握SparkSQL的基本編程方法。熟悉RDD到DataFrame的轉(zhuǎn)化方法。技能測試需求說明某公司數(shù)據(jù)庫中有一份記錄了員工基本信息的數(shù)據(jù),導(dǎo)出文件為employee.csv,員工基本信息的數(shù)據(jù)字段說明如表所示,主要包括了部門、員工id、員工姓名、雇用日期及工資5個字段。通過對數(shù)據(jù)進(jìn)行探索分析,分析每個部門的平均工資情況。字段字段說明dname部門名稱eid員工idename員工姓名hireDate雇用日期salary工資技能測試實現(xiàn)步驟讀取文件并加載成employeeRDD。生成一個StructType對象,包含了表的模式信息。對employeeRDD中的每一行元素都進(jìn)行解析。將employeeRDD轉(zhuǎn)化為DataFrame對象employeeDF。將employeeDF注冊為臨時表供查詢使用。使用SQL語句統(tǒng)計各個部門平均工資。技能測試測試2使用DataFrame查詢操作分析圖書信息測試要點(diǎn)掌握用結(jié)構(gòu)化數(shù)據(jù)源創(chuàng)建DataFrame的方法。熟悉利用DataFrame注冊成為臨時表,通過SQL語句查詢數(shù)據(jù)。技能測試需求說明書籍是人類進(jìn)步的階梯,為了助力建設(shè)全民終身學(xué)習(xí)的學(xué)習(xí)型社會、學(xué)習(xí)型大國,我們必須堅持發(fā)展素質(zhì)教育,讓每個人都能夠在閱讀中不斷成長和進(jìn)步。某出版社數(shù)據(jù)庫有一份記錄了圖書信息的相關(guān)數(shù)據(jù),導(dǎo)出文件為book.txt。技能測試圖書信息的相關(guān)數(shù)據(jù)字段說明如表所示,主要包括序號、書名、評分、價格、出版社和圖書鏈接5個字段。為了實現(xiàn)對出版社的圖書量和書籍評分的統(tǒng)計,通過SparkSQL相關(guān)技術(shù),實現(xiàn)對出版社的圖書量及書籍評分進(jìn)行統(tǒng)計。字段字段說明id序號idboo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論