版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
電影網(wǎng)站用戶影評分析對電影的影評進(jìn)行分析,可以從多維度了解一部電影的質(zhì)量和受歡迎程度。常規(guī)的數(shù)據(jù)分析工具在大數(shù)據(jù)場景下,處理數(shù)據(jù)的效率低下,顯然不適用于大數(shù)據(jù)處理分析。分布使用Hadoop分布式框架并結(jié)合電影評分?jǐn)?shù)據(jù),編寫MapReduce程序?qū)崿F(xiàn)用戶影評分析,從多維度分析用戶的觀影興趣偏好。分布式計算框架的出現(xiàn),為分析處理大數(shù)據(jù)的計算提供了很好的解決方案。任務(wù)背景1多維度分析用戶影評目錄了解數(shù)據(jù)字段并分析需求2進(jìn)行用戶觀影興趣偏好的數(shù)據(jù)分析之前,需要了解分析對象、數(shù)據(jù)字段的含義以及數(shù)據(jù)字段之間的關(guān)系。在明確數(shù)據(jù)字段的含義及其字段與字段之間可能存在的關(guān)系后,有助于提出科學(xué)的任務(wù)訴求,明確需求任務(wù),因此本小節(jié)的任務(wù)是如下。了解數(shù)據(jù)字段。統(tǒng)計分析需求描述。任務(wù)描述電影網(wǎng)站提供了與用戶信息相關(guān)的3份數(shù)據(jù),分別為用戶對電影的評分?jǐn)?shù)據(jù)(ratings.dat)、已知性別的用戶信息數(shù)據(jù)(users.dat)以及電影信息數(shù)據(jù)(movies.dat),3份數(shù)據(jù)的介紹說明如下表所示。了解數(shù)據(jù)字段字段說明UserID用戶IDMovieID電影IDRating評分Timestamp時間戳字段說明UserID用戶IDGender性別Age年齡段Occupation職業(yè)Zip-code編碼字段說明MovieID電影IDGenres電影類型ratings.datusers.datmovies.dat通過對電影網(wǎng)站用戶及電影評論數(shù)據(jù)進(jìn)行分析,結(jié)合MapReduce編程知識,分別從評價次數(shù)、性別、年齡段、電影類型這4個維度分析用戶的觀影喜好,具體的統(tǒng)計分析需求如下。評價次數(shù):計算評價次數(shù)最多的10部電影及評分次數(shù)。性別:計算不同性別評分最高的10部電影及評分。年齡段:計算某給定電影各年齡段的平均電影評分。電影類型:計算影評庫中各種類型電影中評價最高的5部電影。統(tǒng)計分析需求描述1多維度分析用戶影評目錄了解數(shù)據(jù)字段并分析需求2根據(jù)任務(wù)需求進(jìn)行MapReduce編程實施方案。將分析需求整合在一個項目中完成,根據(jù)不同的分析任務(wù)進(jìn)行任務(wù)分析,創(chuàng)建不同的Java類,將每個分析任務(wù)分解為若干小的統(tǒng)計任務(wù),分步實現(xiàn)各影評分析任務(wù),本小節(jié)任務(wù)如下。創(chuàng)建并配置工程項目。計算評分次數(shù)最多的10部電影及評分次數(shù)并分析。計算不同性別評分最高的10部電影及評分并分析。計算指定電影各年齡段的平均影評并分析。計算影評庫中各種類型電影中評價最高的5部電影并分析。任務(wù)描述在IDEA中創(chuàng)建一個名為hadoop的maven項目,并配置pom.xml文件。配置完成pom.xml文件后,需要單擊右側(cè)邊欄的Maven按鈕,同時單擊刷新按鈕重新加載所有的Maven項目所需的依賴包,操作如圖所示。將Hadoop中的配置文件core-site.xml和hdfs-site.xml放至hadoop項目的resources目錄下,具體如圖所示。創(chuàng)建并配置工程項目在IDEA的hadoop項目com.cqyti.film.mapreduce包下定義一個名為Movies_Join_Ratings的類,該類主要完成movies.dat和ratings.dat兩份數(shù)據(jù)的連接。將整個項目打包并上傳至Hadoop集群中,通過“hadoopjar”命令接上JAR包名稱(Movies_Join_Ratings.jar)和類名(com.cqyti.film.mapreduce.Movies_Join_Ratings),并按“Enter”鍵執(zhí)行該MapReduce程序,即可在HDFS的/join/output目錄下生成part-m-00000文件。使用“hdfs
dfs
–cat/join/output/part-m-00000|head-10”查看movies.dat和ratings.dat兩份數(shù)據(jù)連接后的結(jié)果,具體實現(xiàn)如圖所示。計算評分次數(shù)最多的10部電影及評分次數(shù)并分析1.連接movies.dat和ratings.dat數(shù)據(jù)在hadoop項目com.cqyti.film.mapreduce包下定義一個名為MoviesRatesAll的類,計算所有電影的評分次數(shù)。將整個項目打包并上傳至Hadoop集群中,通過“hadoopjar”命令接上JAR包名稱(MoviesRatesAll.jar)和類名(com.cqyti.film.mapreduce.MoviesRatesAll),并按“Enter”鍵執(zhí)行該MapReduce程序,執(zhí)行完成后即可在HDFS的/join/outputAll/目錄下生成part-r-00000文件。使用“hdfs
dfs
–cat/join/outputAll/part-m-00000|head-10”查看輸出結(jié)果,具體實現(xiàn)如下圖所示。計算評分次數(shù)最多的10部電影及評分次數(shù)并分析2.計算所有電影的評分次數(shù)創(chuàng)建MoviesRateTop10Bean類和MoviesRatesTop10類,分別實現(xiàn)對電影評分次數(shù)的降序排序,并查詢電影評分次數(shù)Top10的數(shù)據(jù)記錄。打包jar上傳至Hadoop運(yùn)行,結(jié)果保存在/join/outputTop10/part-r-00000文件中,對該結(jié)果按評分次數(shù)進(jìn)行降序排序。通過“hdfsdfs-cat/join/outputTop10/part-r-00000”命令查看輸出結(jié)果,具體實現(xiàn)如下圖所示。計算評分次數(shù)最多的10部電影及評分次數(shù)并分析3.統(tǒng)計電影評分次數(shù)Top10創(chuàng)建一個MapjoinThreeTables類,實現(xiàn)3份數(shù)據(jù)連接,該類中代碼與連接兩份數(shù)據(jù)連接的代碼相似,均無reduce任務(wù)。打包并提交MapReduce程序至Hadoop集群運(yùn)行,最終連接結(jié)果將保存至/join/outPutMapjoinThreeTables/目錄下的part-m-00000文件中。在Shell中通過“hdfsdfs-cat/join/outPutMapjoinThreeTables/part-m-00000|head-10”命令查看前10條記錄,具體實現(xiàn)如圖所示。計算不同性別評分最高的10部電影及評分并分析1.連接movies.dat、users.dat和ratings.dat數(shù)據(jù)創(chuàng)建一個MoviesRatesAllGroupByGender類,該類中主要完成兩個計算過程。一是按性別和電影進(jìn)行分組,二是分別在組內(nèi)計算每部電影的平均評分。打包并提交MapReduce程序至Hadoop集群運(yùn)行,即可將最終結(jié)果保存至/join/outPutMoviesRatesAllGroupByGender/目錄的part-r-00000文件中。使用“hdfsdfs-cat/join/outPutMoviesRatesAllGroupByGender/part-r-00000|head-10”命令查看性別為女性的所有電影的平均評分,具體實現(xiàn)如圖所示。使用“hdfsdfs-cat/join/outPutMoviesRatesAllGroupByGender/part-r-00000|tail-10”命令查看性別為男性的所有電影的平均評分,具體實現(xiàn)如圖所示。計算不同性別評分最高的10部電影及評分并分析2.按性別和電影分組計算每部電影影評的平均評分定義MoviesRatesTop10GroupByGenderBean類,并在不同的性別組中,依據(jù)平均評分大小完成降序排序,統(tǒng)計出不同性別組內(nèi)評分Top10的電影及評分信息。將MoviesRatesTop10GroupByGender作為主類,并將項目打包并提交至Hadoop集群運(yùn)行。查看HDFS上的/join/MoviesRatesTop10GroupByGender/目錄下的part-r-00000文件,即查看不同性別組內(nèi)評分Top10的電影及其評分信息,具體實現(xiàn)如圖所示。計算不同性別評分最高的10部電影及評分并分析3.統(tǒng)計不同性別組內(nèi)評分Top10的電影及評分信息根據(jù)users.dat中數(shù)據(jù)的描述信息得知,字段Age并不是用戶的真實年齡,而是年齡段。查看users.dat中的年齡段,該文件Age的取值共有7個,分別為0、1、2、3、4、5、6,分別表示7個年齡段,具體如下表所示。計算指定電影各年齡段的平均影評并分析Age說明018歲以下(不包含18歲)118~24歲225~34歲335~44歲445~49歲550~55歲656歲及以上創(chuàng)建MoviesRatesAllGroupByType的類,該類主要完成兩個計算過程,一是按類型和電影ID進(jìn)行分組,二是分別在組內(nèi)計算每部電影影評的平均評分。打包jar上傳到Hadoop運(yùn)行,結(jié)果保存在/join/MoviesRatesAllGroupByType/目錄下的part-r-00000文件。通過“hdfsdfs-cat/join/MoviesRatesAllGroupByType/part-r-00000|head-10”命令可查看part-r-00000文件的前10條記錄,具體實現(xiàn)如圖所示。計算影評庫中各種類型電影中評價最高的5部電影并分析1.按類型和電影ID分組并計算每部電影影評的平均評分定義一個MoviesRatesTop5GroupByTypeBean類,在不同電影類型的組中,根據(jù)電影平均評分完成降序排序。打包jar上傳到Hadoop運(yùn)行,結(jié)果保存在/join/outputTop5/目錄下的part-r-00000文件。通過“hdfsdfs-cat/join/outputTop5/part-r-00000|head-10”命令可查看part-r-00000文件的前10條記錄,具體實現(xiàn)如圖所示。計算影評庫中各種類型電影中評價最高的5部電影并分析2.統(tǒng)計不同類型組中評分Tp5的電影及評分信息本章首先介紹了用戶影評分析的背景及影評數(shù)據(jù)字段的含義,再根據(jù)影評數(shù)據(jù)從評價次數(shù)、性別、年齡段、電影類型這4個維度提出4個分析任務(wù)。針對每個任務(wù)分別分析其計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年項目參與保密協(xié)議
- 2024無縫鋼管行業(yè)專利申請與保護(hù)協(xié)議2篇
- 2024招投標(biāo)與合同管理:知識產(chǎn)權(quán)合同保護(hù)第一課3篇
- 2024年某高速路段建設(shè)引薦服務(wù)協(xié)議
- 2024年股權(quán)變更正規(guī)協(xié)議模板版B版
- 2024年設(shè)備租賃押金借款合同
- 2025餐飲業(yè)食品安全管理體系認(rèn)證合同范本3篇
- 專業(yè)市場2024年度經(jīng)營管理承包合同書版B版
- 2024技術(shù)開發(fā)合作合同技術(shù)指標(biāo)
- 2024食品公司信息安全保密合同
- 《生物安全培訓(xùn)》課件-2024鮮版
- 述職報告評分表
- 變壓器交接試驗報告(1250)
- LOI外貿(mào)采購意向(標(biāo)準(zhǔn)樣本)
- 水電交接確認(rèn)單(共2頁)
- CTG-MBOSS CRM20 分總冊_普訓(xùn)版_圖文
- 2022年薄壁空心墩施工安全專項方案
- 消防安全知識壁報-04火災(zāi)逃生十訣別4
- ProCAST后處理及結(jié)果分析2009-003
- 輕鋼龍骨石膏板隔墻施工合同協(xié)議書范本模板.doc
- 管片生產(chǎn)安全技術(shù)交底
評論
0/150
提交評論