版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
小組成員:20210117文靖凱20210330陳睿宇基于“五月天歌詞”的數(shù)據(jù)收集與分析-采集器選擇原因01選題背景及意義02數(shù)據(jù)收集03"五月天歌詞"分析04結論與收獲05目錄Content基于“五月天歌詞”的數(shù)據(jù)收集與分析1、采集器選擇原因使用JupyterNotebook作為數(shù)據(jù)采集和分析工具,對于基于"五月天歌詞"的數(shù)據(jù)收集與分析有幾個優(yōu)點1.交互性和實時性:JupyterNotebook提供了交互式的編程環(huán)境,能夠實時展示代碼執(zhí)行結果、圖表和數(shù)據(jù)分析過程,這對于快速迭代和調試分析流程非常有幫助。2.數(shù)據(jù)可視化:JupyterNotebook集成了豐富的數(shù)據(jù)可視化庫,如Matplotlib、Seaborn等,可以直接在Notebook中生成圖表和圖形化展示數(shù)據(jù)分析結果,有助于更直觀地理解和傳達分析結論基于“五月天歌詞”的數(shù)據(jù)收集與分析3.方便的數(shù)據(jù)處理和分析工具:JupyterNotebook支持Python腳本和各種數(shù)據(jù)處理、分析庫(如Pandas、NumPy等)的集成使用,能夠方便地進行數(shù)據(jù)清洗、轉換和統(tǒng)計分析等操作4.文檔化和分享:JupyterNotebook可以保存代碼、文本、圖表和分析結果于同一文件中,形成一個完整的分析文檔,方便保存、分享和復現(xiàn)分析過程因此,使用JupyterNotebook作為數(shù)據(jù)采集和分析工具,可以使基于"五月天歌詞"的數(shù)據(jù)收集與分析過程更加高效、直觀和易于管理基于“五月天歌詞”的數(shù)據(jù)收集與分析2、選題背景及意義本研究以五月天的歌詞為對象,通過數(shù)據(jù)收集與分析,深入研究這些歌詞中的情感、主題和藝術表達形式,旨在揭示五月天音樂的內涵與意義。通過分詞和詞頻統(tǒng)計,我們可以探究五月天歌詞中常用的詞匯和短語,了解他們在歌曲創(chuàng)作中的語言偏好和表達方式。主題分析揭示歌詞中的主題范圍和內容特點,關注社會問題、人際關系和情感表達通過該研究,我們將更全面地了解五月天音樂的獨特風格和創(chuàng)作特點,推動相關領域的發(fā)展和創(chuàng)新。綜上所述,基于“五月天歌詞”的數(shù)據(jù)收集與分析對于音樂研究和情感認知具有重要意義,為廣大聽眾提供更豐富的音樂體驗和思考空間基于“五月天歌詞”的數(shù)據(jù)收集與分析3、數(shù)據(jù)收集為了獲取五月天的歌詞數(shù)據(jù),我選擇通過網(wǎng)易云音樂進行爬取。首先,我查找到五月天在網(wǎng)易云音樂的ID為13193基于“五月天歌詞”的數(shù)據(jù)收集與分析在爬取數(shù)據(jù)的過程中,我使用了Python中的requests、BeautifulSoup、json和re庫來實現(xiàn)相關功能。以下為爬取部分代碼基于“五月天歌詞”的數(shù)據(jù)收集與分析首先,我通過爬蟲技術獲取了所有專輯的ID。我在網(wǎng)易云音樂中打開了所有專輯頁面,并使用Fiddler抓包工具觀察到瀏覽器發(fā)起了一個請求,通過發(fā)送這個請求,我成功獲取到了所有專輯的信息基于“五月天歌詞”的數(shù)據(jù)收集與分析其次,我爬取了每個專輯中的所有歌曲ID。利用之前獲取的專輯ID,循環(huán)遍歷了所有專輯,并通過Fiddler抓包觀察到了獲取歌曲ID的請求。我將每個專輯ID加入到請求中進行循環(huán),并篩選出我需要的歌曲ID。為了避免重復的歌曲,我使用了正則表達式來過濾掉演唱會專輯的歌曲基于“五月天歌詞”的數(shù)據(jù)收集與分析最后,我爬取了每首歌曲的歌詞。由于網(wǎng)易云音樂的API是以POST表單形式提供的,并且表單內容經過加密處理,因此需要使用解密算法進行解密。可以直接使用GET方式請求歌詞API,它會返回一個JSON格式的數(shù)據(jù)。遍歷每個歌曲ID,解析返回的JSON數(shù)據(jù),并獲取歌詞信息。通過以上數(shù)據(jù)收集過程,我成功獲取到了五月天歌詞的數(shù)據(jù),并準備進行后續(xù)的分析和研究基于“五月天歌詞”的數(shù)據(jù)收集與分析4、"五月天歌詞"分析(1)和詞頻統(tǒng)計:通過使用工具對五月天的歌詞進行分詞處理,并統(tǒng)計了出現(xiàn)次數(shù)前十多的詞語,包括"我們"、"世界"、"自己"、"一個"、"如果"、"沒有"、"知道"、"不能"、"一天"、"就是"。這些詞語在歌詞中的頻繁出現(xiàn)反映了五月天歌曲中常見的主題和情感表達基于“五月天歌詞”的數(shù)據(jù)收集與分析(2)歌曲情感分析:這里使用了Peddlehub庫的Senta模型進行情感分析。通過對五月天歌曲的情感分析,我發(fā)現(xiàn)其中68.8%的歌曲是積極的,31.2%是消極的。這種情感分布與五月天的生平經歷和音樂創(chuàng)作密切相關五月天樂團在成長的過程中經歷了困難和挑戰(zhàn),但他們始終堅持著對音樂的熱愛和積極向上的態(tài)度。這種堅持和樂觀的情感在他們的歌曲中得到了體現(xiàn),給人們帶來了希望和力量基于“五月天歌詞”的數(shù)據(jù)收集與分析(3)歌曲主題分析:這里使用了sklearn庫的LDA模型進行主題分析通過對五月天歌曲的主題分析,我發(fā)現(xiàn)愛情主題的歌曲最多,占比達65%,是其他主題的幾倍。這與五月天的生平經歷和音樂創(chuàng)作緊密相關基于“五月天歌詞”的數(shù)據(jù)收集與分析5、結論與收獲通過進行數(shù)據(jù)爬取,我成功獲取了五月天的歌詞數(shù)據(jù)。這個過程讓我深入了解了采集器工作原理和技術應用。我掌握了使用Python的相關庫進行HTTP請求、HTML解析和數(shù)據(jù)提取的方法。此外,我學會了處理復雜的數(shù)據(jù)結構和運用正則表達式來篩選目標信息。這次數(shù)據(jù)爬取為我提供了寶貴的實踐經驗,為今后從互聯(lián)網(wǎng)收
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中物理第十九章原子核綜合測試課件新人教版選修3-
- 中班國慶節(jié)教案(完整)
- 淮陽四月小學教師資格證考試筆試質量檢測(附答案)
- 班級食育活動的組織與開展計劃
- 風電場檢修規(guī)章總則
- 美術特色課程推廣方案計劃
- 年度工作規(guī)劃的制定計劃
- 應急預案危機管理培訓
- 美術教學中的品德教育滲透計劃
- 幼兒園衛(wèi)生保健工作培訓課件
- 珍愛生命和法同行
- 一例消化道出血合并高血壓糖尿病患者的護理查房課件
- 口腔技術操作規(guī)范全本
- 帶式輸送機基礎知識培訓ppt課件
- 銀行活體牲畜抵押貸款管理辦法
- JJG 1005-2019 電子式絕緣電阻表(現(xiàn)行有效)
- 2022新員工入場三級安全教育培訓教材(建筑施工)
- 精神科護理風險管理及防范.(省會)PPT課件
- 靜脈治療專項培訓試題庫(含答案)
- 303093 池國華 《內部控制與風險管理(第3版)》思考題和案例分析答案
- 02安全培訓、教育需求識別表
評論
0/150
提交評論