版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第7章整本書文本處理與分析——以《紅樓夢》為例Python數(shù)據(jù)分析與可視化學(xué)習(xí)目標(biāo)學(xué)會讀取和處理大型文本數(shù)據(jù)的方法;掌握將jieba分詞結(jié)果與停用詞相結(jié)合來繪制詞云以及定制化詞云;熟練使用自定義函數(shù)批量繪制各章節(jié)詞云和柱狀圖;學(xué)會構(gòu)建分詞TF-IDF矩陣;掌握常用的幾種文本聚類分析方法;了解什么是LDA主題模型及其分析方法。任務(wù)七:整本書文本處理與分析——以《紅樓夢》為例7.1繪制《紅樓夢》整本書的詞云7.2《紅樓夢》各章節(jié)詞云圖及柱狀圖的展示7.3文本聚類分析目錄CONTENTS
《紅樓夢》為中國古代章回體長篇小說,中國古典四大名著之一,一般認(rèn)為是清代作家曹雪芹所著,又名《石頭記》、《情僧錄》、《風(fēng)月寶鑒》、《金陵十二釵》、《金玉緣》。小說以賈、史、王、薛四大家族的興衰為背景,以富貴公子賈寶玉為視角,以賈寶玉與林黛玉、薛寶釵的愛情婚姻悲劇為主線,描繪了一批舉止見識出于須眉之上的閨閣佳人的人生百態(tài),展現(xiàn)了真正的人性美和悲劇美,可以說是一部從各個角度展現(xiàn)女性美以及中國古代社會世態(tài)百相的史詩性著作。此書分為120回“程本”和80回“脂本”兩大版本系統(tǒng)。程本為程偉元排印的印刷本,脂本為脂硯齋在不同時期抄評的早期手抄本。脂本是程本的底本。新版通行本前80回?fù)?jù)脂本匯校,后40回?fù)?jù)程本匯校,署名“曹雪芹著,無名氏續(xù),程偉元、高鶚(有爭議)整理”。《紅樓夢》簡述
《紅樓夢》是一部頗具世界影響力的人情小說,是舉世公認(rèn)的中國古典小說巔峰之作,是中國封建社會的百科全書,是傳統(tǒng)文化的集大成者。小說以“大旨談情,實錄其事”自勉,只按自己的事體情理,按跡循蹤,擺脫舊套,新鮮別致,取得了非凡的藝術(shù)成就。二十世紀(jì)以來,學(xué)術(shù)界因《紅樓夢》異常出色的藝術(shù)成就和豐富深刻的思想底蘊而產(chǎn)生了以《紅樓夢》為研究對象的專門學(xué)問——紅學(xué)。
《紅樓夢》是一本鴻篇巨制,里面出現(xiàn)了幾百個各具特色的人物且社會關(guān)系復(fù)雜。本章的分析只是基于統(tǒng)計分析、文本挖掘等知識,利用Pandas、Matplotlib、jieba和wordcloud庫處理與展現(xiàn)數(shù)據(jù)?!都t樓夢》簡述(1)文本的準(zhǔn)備、數(shù)據(jù)預(yù)處理、分詞、詞頻和繪制整本書詞云等。(2)《紅樓夢》整本書各章節(jié)的字?jǐn)?shù)、段落數(shù)和作者寫作風(fēng)格方面的關(guān)系。(3)《紅樓夢》整本書各章節(jié)詞云圖及柱狀圖的展示。(4)對全書各章節(jié)使用TF-IDF矩陣進(jìn)行聚類分析并可視化,包括使用K-Means聚類、MDS聚類、PCA聚類方法等。(5)使用LDA主題模型對小說中各主題最主要的關(guān)鍵詞進(jìn)行可視化。本章要完成的任務(wù)7.1繪制《紅樓夢》整本書的詞云整本書詞云的繪制方法比較簡單,本節(jié)將介紹兩種常用的方法。方法一為使用jieba庫快速繪制詞云;方法二將jieba庫與Pandas庫結(jié)合共同繪制詞云。7.1繪制《紅樓夢》整本書的詞云7.2《紅樓夢》各章節(jié)詞云圖及柱狀圖的展示
《紅樓夢》是典型的章回小說,從7.1節(jié)知道,我們是以整本書的分詞為基礎(chǔ)來繪制詞云的。如果我們想要了解各章節(jié)人物出場次數(shù)及關(guān)鍵事件,則需要以各章節(jié)的分詞為基礎(chǔ)進(jìn)行詞頻統(tǒng)計和繪制詞云。7.3文本聚類分析
聚類分析(Clusteranalysis,又稱為群集分析)是一組將研究對象分為相對同質(zhì)的群組的統(tǒng)計分析技術(shù),廣泛應(yīng)用于數(shù)據(jù)挖掘、機器學(xué)習(xí)、模式識別、圖像分析等領(lǐng)域。聚類分析主要應(yīng)用于探索性的研究,不管實際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解,增加或刪除一些變量對最終解都可能產(chǎn)生實質(zhì)性的影響。聚類分析有別于分類分析(Classificationanalysis),前者為非監(jiān)督式學(xué)習(xí),后者為監(jiān)督式學(xué)習(xí)。
文本聚類分析是聚類分析中的一個具體應(yīng)用。本小節(jié)將對《紅樓夢》各章節(jié)的分詞結(jié)果進(jìn)行聚類分析,我們需要事先構(gòu)建該文本的TF-IDF(TermFrequency-InverseDocumentFrequency)矩陣(其中,TF是詞頻,IDF是逆文本頻率指數(shù))。7.3.1構(gòu)建分詞TF-IDF矩陣
TF-IDF是一種統(tǒng)計方法,也是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。它可用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。7.3.1構(gòu)建分詞TF-IDF矩陣?yán)纾河幸黄皞ゴ蟮拈L征精神”的文章,準(zhǔn)備用計算機提取它的關(guān)鍵詞。當(dāng)我們對其分詞并過濾掉停用詞“的”后,得到了“偉大”“長征”“精神”三個詞。我們可能發(fā)現(xiàn)“偉大”“長征”“精神”這三個詞的出現(xiàn)次數(shù)一樣多。這是不是意味著,作為關(guān)鍵詞,它們的重要性是一樣的?顯然不是這樣。因為“偉大”和“精神”這兩個詞是很常見的,相對而言,“長征”不那么常見。如果這三個詞在一篇文章出現(xiàn)次數(shù)一樣多,通常認(rèn)為,“長征”的重要程度要大于“偉大”和“精神”,也就是說,在關(guān)鍵詞排序上面,“長征”應(yīng)該排在“偉大”和“精神”的前面。所以,還需要一個重要性調(diào)整系數(shù),衡量一個詞是不是常見詞。如果某個詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性。7.3.1構(gòu)建分詞TF-IDF矩陣TF-IDF值獲取的方法主要用到了CountVectorizer()和TfidfTransformer()兩個函數(shù)。CountVectorizer()函數(shù)通過fit_transform()函數(shù)將文本中的詞語轉(zhuǎn)換為詞頻矩陣;TfidfTransformer()函數(shù)也有個fit_transform()函數(shù),它的作用是計算TF-IDF值,得到相應(yīng)矩陣后,進(jìn)行聚類分析。TfidfVectorizer()函數(shù)相當(dāng)于具有上面兩個函數(shù)合并起來的功能,可直接生成TF-IDF值。7.3.2K-Means聚類分析
K-Means算法是一種典型的基于劃分的聚類算法,也是一種無監(jiān)督學(xué)習(xí)算法。K-Means算法的思想很簡單,對給定的樣本集,用歐氏距離作為衡量數(shù)據(jù)對象間相似度的指標(biāo),相似度與數(shù)據(jù)對象間的距離成反比,相似度越大,距離越小。其步驟是,預(yù)先將數(shù)據(jù)分為K組,則隨機選取K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據(jù)聚類中現(xiàn)有的對象被重新計算。這個過程將不斷重復(fù)直到滿足某個終止條件。7.3.2K-Means聚類分析
余弦相似性指的是通過測量兩個向量的夾角的余弦值來度量它們之間的相似性,常用于計算文本相似度。
余弦值的范圍在[-1,1]之間,以本節(jié)為例。當(dāng)值越趨近于-1時,表示兩個向量的方向越相反,即文本的相異性越大;當(dāng)值越趨近于1時,表示兩個向量的方向越相同,即文本越相似;接近于0時,表示兩個向量近乎于正交,夾角的余弦越小,文本之間相關(guān)性則越差。7.3.3MDS降維為什么要對數(shù)據(jù)進(jìn)行降維?進(jìn)行數(shù)據(jù)降維主要包括以下5個原因:數(shù)據(jù)本身存在一些問題,比如特征多而樣本少、不同的特征具有相關(guān)性、噪聲或者特征冗余,必須在將這些數(shù)據(jù)輸入模型之前就進(jìn)行一定的處理。有些算法不適合高維度的數(shù)據(jù),卻不得不用它。減少數(shù)據(jù)量,從而減小計算量。將數(shù)據(jù)維度降到二維或者三維后,可以進(jìn)行可視化,便于觀察和挖掘信息。特征太多或者太復(fù)雜會使得模型過擬合。7.3.3MDS降維什么樣的數(shù)據(jù)適合降維?數(shù)據(jù)降維一般針對高維數(shù)據(jù)進(jìn)行操作,但不是所有的高維數(shù)據(jù)都需要進(jìn)行數(shù)據(jù)降維。因為絕大部分降維都會帶來數(shù)據(jù)信息的損失,如果維度不高,在輸出結(jié)果后需要分析原始維度對模型的影響;或者模型對精度要求很高,那么就要謹(jǐn)慎降維。反之,如果維度數(shù)據(jù)實在太大,明顯影響計算效率,降維后對模型精度影響也不太大,那就可以進(jìn)行降維。7.3.3MDS降維MDS(MultidimensionalScaling,多維標(biāo)度)是一種低維嵌入算法,是一組通過直觀的空間圖,表示研究對象的感知和偏好的分析方法,屬于多重變量分析的方法之一,是市場營銷學(xué)、社會學(xué)、數(shù)量心理學(xué)等統(tǒng)計實證分析的常用方法。其核心思想是降維后,點與點之間的歐式距離不變,即在保障原始空間與低維空間樣本之間距離一致的前提下,將高維數(shù)據(jù)進(jìn)行降維。
本小節(jié)內(nèi)容將介紹如何使用MDS方法對TF-IDF矩陣進(jìn)行降維處理。7.3.4PCA降維PCA(PrincipalComponentAnalysis,主成分分析)是一種常見的降維算法,通過把數(shù)據(jù)從高維映射到低維來降低特征維度,同時保留盡可能多的信息。降維的目的在于使得數(shù)據(jù)更直觀、更易讀、降低算法的計算開銷和去除噪聲等。PCA降維過程其實就是一個實對稱矩陣對角化的過程,其主要性質(zhì)是,保留了最大的方差方向,使從變換特征回到原始特征的誤差最小,方差值越大表示成分越重要。實現(xiàn)過程類似于MDS降維。7.3.5HC聚類HC聚類(HierarchicalClustering,層次聚類)是聚類算法的一種,通過計算不同類別數(shù)據(jù)點間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹,不同類別的原始數(shù)據(jù)點是樹的最低層,樹的頂層是一個聚類的根節(jié)點。層次聚類算法分為自上而下和自下而上兩種方法。自下而上是指一開始就將每個數(shù)據(jù)點視為一個單一的類,然后依次合并類,直到所有類合并成一個包含所有數(shù)據(jù)點的單一聚類。自上而下則相反。7.3.6t-SNE降維t-SNE(t-distributedStochasticNeighborEmbedding)是一種非線性降維算法,可將高維數(shù)據(jù)降維到二維或者三維數(shù)據(jù)。在大數(shù)據(jù)時代,數(shù)據(jù)不僅越來越大,且越來越復(fù)雜,大量數(shù)據(jù)集嵌入在高維空間中,但這些數(shù)據(jù)又具有很低的內(nèi)在維度。換句話說,高維數(shù)據(jù)經(jīng)過降維后,在低維狀態(tài)下更能顯示出其本質(zhì)特性。t-SNE降維主要包括以下兩個步驟:t-SNE構(gòu)建一個高維對象之間的概率分布,使得相似的對象被選擇的概率更高,
而不相似的對象被選擇的概率較低;t-SNE在低維空間里構(gòu)建這些點的概率分布,使得這兩個概率分布之間盡可能地相似。這里使用KL(Kullback-LeiblerDivergence)散度來度量兩個分布之間的相似性。7.3.7LDA主題模型LDA(LatentDirichletAllocation)主題模型既是一種文檔生成模型,又是一種典型的詞袋模型。它認(rèn)為一篇文檔可以包含多個主題,而每個主題又對應(yīng)著不同的詞,詞與詞之間沒有順序以及先后的關(guān)系。一篇文章的構(gòu)造過程,首先是以一定的概率選擇某個主題,然后再在這個主題上以一定的概率選出某一個詞,這樣就生成了這篇文章的第一個詞。不斷重復(fù)這個過程,就生成了整篇文章。同時,它還是一種無監(jiān)督式學(xué)習(xí)的聚類算法,在訓(xùn)練時不需要手工標(biāo)注訓(xùn)練集,僅需提供文檔集以及指定主題的數(shù)量k即可。LDA主題模型的使用是上述文檔生成的逆過程,它將根據(jù)一篇得到的文章,去尋找出這篇文章的主題,以及這些主題對應(yīng)的詞。7.3.7LDA主題模型
LDA主題模型在機器學(xué)習(xí)和自然語言處理等領(lǐng)域是用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型,在社會網(wǎng)絡(luò)和社會媒體研究領(lǐng)域最為常見,現(xiàn)已成為主題建模的一個標(biāo)準(zhǔn)。簡而言之,如果一篇文章有一個中心思想,那么一些特定詞語會頻繁出現(xiàn)。例如,一個語料庫中有三個主題:體育、科技和電影,要求寫成一個劇本。一篇描述電影制作過程的文檔,可能同時包含主題科技和主題電影,而主題科技中有一系列的詞,這些詞和科技有關(guān),并且他們有一個概率,代表的是以科技為主題的文章中該詞出現(xiàn)的概率。同理在主題電影中也有一系列和電影有關(guān)的詞,對應(yīng)其出現(xiàn)概率。當(dāng)生成一篇關(guān)于電影制作的文檔時,首先隨機選擇某一主題,選擇到科技和電影兩主題的概率更高;然后選擇單詞,選擇到那些和主題相關(guān)的詞的概率更高。這樣就完成了一個單詞的選擇。不斷選擇N個詞就組成了一篇文檔。本章小結(jié)
作為一名優(yōu)秀的數(shù)據(jù)分析師不僅要求能駕馭結(jié)構(gòu)化數(shù)據(jù),還應(yīng)同時具有分析大型文本數(shù)據(jù)及可視化的職業(yè)能力。本章以超百萬字、一百二十回的《
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 班干部的培養(yǎng)與管理計劃
- 病歷室護(hù)士細(xì)致記錄病史
- 物流運輸行業(yè)美工工作經(jīng)驗分享
- 《慢性病危險因素》課件
- 家政公司前臺服務(wù)總結(jié)
- 《康復(fù)治療學(xué)總論》課件
- 2024年全球及中國混合云行業(yè)概述及特征調(diào)研報告
- 2021年廣東省惠州市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2024年河南省鄭州市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2023年安徽省銅陵市公開招聘警務(wù)輔助人員輔警筆試自考題1卷含答案
- 2025年中國煙草總公司湖北省公司校園招聘227人高頻重點提升(共500題)附帶答案詳解
- 2024版帶貨主播電商平臺合作服務(wù)合同范本3篇
- 2025公司資產(chǎn)劃轉(zhuǎn)合同
- 2024-2030年中國鋁汽車緊固件行業(yè)銷售規(guī)模與盈利前景預(yù)測報告
- 廣東省清遠(yuǎn)市2023-2024學(xué)年高一上學(xué)期期末質(zhì)量檢測物理試題(解析版)
- 2024-2025學(xué)年人教版數(shù)學(xué)五年級上冊期末檢測試卷(含答案)
- 《外盤期貨常識》課件
- 【MOOC】土力學(xué)-西安交通大學(xué) 中國大學(xué)慕課MOOC答案
- 醫(yī)院醫(yī)??乒ぷ骺偨Y(jié)
- 2024-2025學(xué)年譯林版八年級英語上學(xué)期重點詞匯短語句子歸納【考點清單】
- 廣東省六校聯(lián)考2024-2025學(xué)年高二上學(xué)期12月月考英語試題
評論
0/150
提交評論