基于Hadoop的熱點(diǎn)詞提取與熱點(diǎn)話題發(fā)現(xiàn)的實(shí)現(xiàn)的中期報告_第1頁
基于Hadoop的熱點(diǎn)詞提取與熱點(diǎn)話題發(fā)現(xiàn)的實(shí)現(xiàn)的中期報告_第2頁
基于Hadoop的熱點(diǎn)詞提取與熱點(diǎn)話題發(fā)現(xiàn)的實(shí)現(xiàn)的中期報告_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于Hadoop的熱點(diǎn)詞提取與熱點(diǎn)話題發(fā)現(xiàn)的實(shí)現(xiàn)的中期報告一、問題描述當(dāng)前,隨著互聯(lián)網(wǎng)的普及,大數(shù)據(jù)時代已經(jīng)到來。在這個時代下,如何從龐大的數(shù)據(jù)中挖掘出有用的信息,為商業(yè)決策提供更好的支持,成為了研究者關(guān)注的重點(diǎn)。其中,熱點(diǎn)詞提取和熱點(diǎn)話題發(fā)現(xiàn)是大數(shù)據(jù)研究中的兩個重要方向。熱點(diǎn)詞指在某一時期內(nèi)被廣泛使用的、引起大眾高度關(guān)注的詞匯,例如新冠肺炎、口罩等;熱點(diǎn)話題則是由多個相關(guān)熱點(diǎn)詞組合而成的,是更加綜合、更加具體的內(nèi)容,例如“新冠病毒疫情”話題下,可以包含很多與疫情相關(guān)的熱點(diǎn)詞。本項目的目標(biāo)是基于Hadoop平臺,實(shí)現(xiàn)熱點(diǎn)詞提取和熱點(diǎn)話題發(fā)現(xiàn)的功能,并對結(jié)果進(jìn)行展示和分析。二、解決方案本項目的主要思路是,以新浪微博為數(shù)據(jù)來源,使用云服務(wù)器以及Hadoop平臺搭建數(shù)據(jù)處理環(huán)境,完成熱點(diǎn)詞提取和熱點(diǎn)話題發(fā)現(xiàn)的工作,最終在web端展示結(jié)果和分析。具體流程如下:1.數(shù)據(jù)獲?。簭男吕宋⒉〢PI接口獲取數(shù)據(jù)。本項目選擇以“新冠肺炎”為關(guān)鍵詞,獲取2020年1月至2020年11月的相關(guān)微博數(shù)據(jù)。2.數(shù)據(jù)處理:使用Python對數(shù)據(jù)進(jìn)行清洗、分詞、去重等預(yù)處理工作。清洗包括去除無效字符、表情符、HTML代碼等;分詞使用jieba分詞,并去除停用詞;去重則是使用HashSet實(shí)現(xiàn)。3.數(shù)據(jù)分析:使用HadoopMapReduce分布式框架,對分詞后的數(shù)據(jù)進(jìn)行詞頻統(tǒng)計,并根據(jù)詞頻大小排序,篩選出出現(xiàn)頻率高的詞匯,作為熱點(diǎn)詞展示。4.熱點(diǎn)話題發(fā)現(xiàn):在熱點(diǎn)詞的基礎(chǔ)上,使用機(jī)器學(xué)習(xí)中的聚類算法,對出現(xiàn)頻率高的熱點(diǎn)詞進(jìn)行聚類,將多個相關(guān)的詞匯組合成一個話題,作為熱點(diǎn)話題展示。5.結(jié)果展示:將熱點(diǎn)詞和熱點(diǎn)話題展示在web端,并提供圖表分析功能。三、目前進(jìn)展1.數(shù)據(jù)獲?。耗壳耙呀?jīng)通過新浪微博API獲取到了2020年1月至2020年11月的“新冠肺炎”相關(guān)數(shù)據(jù),共計280000條。2.數(shù)據(jù)處理:已經(jīng)完成數(shù)據(jù)清洗、分詞、去重等預(yù)處理工作,目前得到了各個月份的分詞結(jié)果,以及全年的分詞結(jié)果。3.數(shù)據(jù)分析:已經(jīng)按照月份完成了MapReduce程序,利用Hadoop框架對各個月份的分詞結(jié)果進(jìn)行統(tǒng)計,并得到了出現(xiàn)頻率高的詞匯。目前正在整合不同月份的熱點(diǎn)詞結(jié)果,并進(jìn)行最終的篩選和整理,以得到全年的熱點(diǎn)詞。4.熱點(diǎn)話題發(fā)現(xiàn):已經(jīng)完成了基于詞向量和KMeans算法的聚類分析,并成功地將熱點(diǎn)詞進(jìn)行了聚類,將相似的詞匯組合成話題。目前正在整理話題結(jié)果,以得到較為完整的熱點(diǎn)話題。5.結(jié)果展示:正在進(jìn)行web端展示的設(shè)計與開發(fā)。目前已經(jīng)設(shè)計了頁面框架,正在加入數(shù)據(jù)展示和分析的功能。四、下一步計劃1.完成熱點(diǎn)詞和熱點(diǎn)話題的整體統(tǒng)計和分析,并進(jìn)行數(shù)據(jù)可視化展示。2.進(jìn)行性能優(yōu)化,以提高數(shù)據(jù)處理速度和系統(tǒng)性能。3.針對其他數(shù)據(jù)集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論