《數(shù)據(jù)挖掘與機器學習》 課件 項目七 新聞文本分析-聚類_第1頁
《數(shù)據(jù)挖掘與機器學習》 課件 項目七 新聞文本分析-聚類_第2頁
《數(shù)據(jù)挖掘與機器學習》 課件 項目七 新聞文本分析-聚類_第3頁
《數(shù)據(jù)挖掘與機器學習》 課件 項目七 新聞文本分析-聚類_第4頁
《數(shù)據(jù)挖掘與機器學習》 課件 項目七 新聞文本分析-聚類_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

處理新聞文本數(shù)據(jù)新聞文本聚類——聚類分析任務(wù)描述文本數(shù)據(jù)清洗是指對文本數(shù)據(jù)進行處理,以去除其中的噪聲、錯誤和無用信息,使得數(shù)據(jù)更加準確、可靠和適合分析,在文本分析和挖掘領(lǐng)域中具有非常重要的意義。經(jīng)過清洗的數(shù)據(jù)有著更好的數(shù)據(jù)質(zhì)量,能夠使得后續(xù)的數(shù)據(jù)挖掘更加精準有效,貫徹高質(zhì)量發(fā)展精神。本任務(wù)將對新聞文本數(shù)據(jù)進行清洗,包括文本讀取、分詞、去停用詞和特征提取。任務(wù)要求使用withopen函數(shù)讀取文本文件。使用jieba庫進行文本分詞。使用stoptxt停用詞表去停用詞。使用TfidfTransformer進行文本特征提取。讀取文件jieba分詞去停用詞特征提取讀取文件怎么讀取文本文件呢?read_csv函數(shù)可用于讀取使用分割符分割的文本文件,這在實際應(yīng)用中存在很多限制。因此想要自由的處理文本文件,還需要其他的辦法。open是Python內(nèi)置的一個關(guān)鍵字,用于打開文件,并創(chuàng)建一個上下文環(huán)境。open關(guān)鍵字的基本使用格式如下。

讀取文件open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None)Open關(guān)鍵字常用參數(shù)及其說明

讀取文件參數(shù)名稱說明file接收str,表示要打開的文件的路徑和名稱,無默認值mode接收str,表示文件的讀寫模式,默認為“r”buffering接收int,表示文件的緩沖區(qū)大小,默認為-1encoding接收str,表示文件的編碼格式,默認為None讀取文件參數(shù)名稱說明errors接收str,便是編碼錯誤的處理方式,默認為Nonenewline接收str,表示文本模式下的換行符,默認為Noneclosefd接收bool,表示是否關(guān)閉文件描述符,默認為Trueopener接收函數(shù),表示自定義的文件打開器,默認為NoneOpen關(guān)鍵字常用參數(shù)及其說明

withopen可以說是open的優(yōu)化用法或高級用法,相比open更加簡潔、安全。open必須搭配close方法使用,先用open打開文件,然后進行讀寫操作,最后用close釋放文件。withopen則無需close語句,比較簡潔。json是一種輕量級、基于文本的、可讀的文件格式。文件中的部分關(guān)鍵詞及其出現(xiàn)頻率,儲存在詞頻.json中。讀取文件讀取文件對文本文件進行文件讀取主要通過以下4個步驟實現(xiàn)。使用withopen或open打開文件使用json.load讀取文件輸出讀取文件的值若使用open函數(shù)打開,還需要使用close函數(shù)關(guān)閉jieba分詞jieba是一個常用的中文分詞庫,它能夠?qū)⒁欢沃形奈谋景凑赵~語進行劃分,并且去除停用詞等無意義的符號,輸出分好的詞語列表。jieba庫在Python中廣泛應(yīng)用于自然語言處理領(lǐng)域,如文本挖掘、搜索引擎、信息檢索等。什么是jieba分詞?漢字是文化自信的基石,學習漢字,推進文化自信自強。漢語是以漢字為基本書寫單位,詞語之間沒有明顯的區(qū)分標記,完整的句子很難進行信息提取,因此在中文自然語言處理中通常是將漢語文本中的字符串切分成合理的詞語序列。jieba分詞jieba庫的主要作用有什么呢?一段中文文本進行分詞,得到分好的詞語列表,方便后續(xù)的處理和分析。中文分詞jieba庫支持基于TF-IDF算法和TextRank算法的關(guān)鍵詞提取,可以提取出一段中文文本中的關(guān)鍵詞,用于文本摘要、信息檢索等。關(guān)鍵詞提取jieba庫支持中文詞性標注,可以標注出每個詞語的詞性,如名詞、動詞、形容詞等,方便進一步的文本分析和處理。詞性標注jieba庫內(nèi)置了一些常用的停用詞表,可以去除一些無意義的詞語,避免影響文本處理的結(jié)果。去除停用詞用戶可以通過添加自定義的詞語,來彌補jieba庫分詞時出現(xiàn)的漏詞問題,提高分詞效果。添加自定義詞語處理新聞文本數(shù)據(jù)新聞文本聚類——聚類分析任務(wù)描述文本數(shù)據(jù)清洗是指對文本數(shù)據(jù)進行處理,以去除其中的噪聲、錯誤和無用信息,使得數(shù)據(jù)更加準確、可靠和適合分析,在文本分析和挖掘領(lǐng)域中具有非常重要的意義。經(jīng)過清洗的數(shù)據(jù)有著更好的數(shù)據(jù)質(zhì)量,能夠使得后續(xù)的數(shù)據(jù)挖掘更加精準有效。本任務(wù)將對新聞文本數(shù)據(jù)進行清洗,包括文本讀取、分詞、去停用詞和特征提取。任務(wù)要求使用withopen函數(shù)讀取文本文件。使用jieba庫進行文本分詞。使用stoptxt停用詞表去停用詞。使用TfidfTransformer類進行文本特征提取。讀取文件jieba分詞去停用詞特征提取去停用詞為什么進行去停用詞?在文本處理中,停用詞是指一些功能極其普遍,與其他詞相比沒有什么實際含義的詞,通常是一些單字,單字母以及高頻的單詞。例如,中文中的“我、的、了、地、嗎”等,英文中的“the、this、an、a、of”等。對于停用詞一般在預(yù)處理階段就將其刪除,避免對文本,特別是短文本,造成負面影響。去停用詞對文本文件進行去停用詞主要通過以下4個步驟實現(xiàn)。使用withopen或open讀取文件使用read.csv讀取停用詞表用for循環(huán)遍歷文件,去除與停用詞表相同的部分將結(jié)果保存到表格中特征提取特征提取是指根據(jù)某個特征評估函數(shù)計算各個特征的評分值,再按評分值對這些特征進行排序,選取若干個評分值最高的作為特征。特征提取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),從而簡化計算,提高文本處理的速度和效率。什么是特征提取?特征提取特征提取的常用方法如下。特征提取方式特點詞頻模型考慮單詞出現(xiàn)頻率,不考慮上下文信息,簡單高效。通過詞頻模型進行特征提取就是將詞頻小于某一值或大于某一值的詞刪除,從而降低特征空間的維數(shù),詞頻是一個詞在文檔中出現(xiàn)的次數(shù)。該模型是基于這樣一個假設(shè),即出現(xiàn)頻率小的詞對文章的影響也較小,出現(xiàn)頻率大的詞可能是無意義的普通詞。但是在信息檢索的研究中認為,有時頻率小的詞含有更多的信息。因此,在特征選擇的過程中不宜簡單地根據(jù)詞頻大幅度刪詞詞頻(TF)=某個詞在文章中的出現(xiàn)次數(shù)/文章的總詞數(shù)特征提取特征提取的常用方法如下。詞頻模型考慮單詞出現(xiàn)頻率,不考慮上下文信息,簡單高效。N-gram模型考慮相鄰單詞組合的特征,可以捕捉到一定的上下文信息。TF—IDF模型既考慮單詞出現(xiàn)頻率,也考慮在文本集合中單詞的普遍重要性。N-gram模型考慮相鄰單詞組合的特征,可以捕捉到一定的上下文信息。N-gram模型是在詞頻模型的基礎(chǔ)上,考慮相鄰的N個單詞作為一個特征,N一般取2或3。該模型基于這樣一種假設(shè),第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以直接通過從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到特征提取方式特點特征提取TF—IDF模型既考慮單詞出現(xiàn)頻率,也考慮在文本集合中單詞的普遍重要性。TF-IDF模型既逆文本頻率指數(shù)。其中某一特定詞語的逆文件頻率(IDF),可以由總文件數(shù)目除以包含該詞語的文件的數(shù)目,再將得到的商取對數(shù)得到。將詞頻與逆文檔頻率相乘既得到逆文本頻率指數(shù)。該模型基于這樣一個假設(shè),字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF可以有效評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度逆文檔頻率(IDF)=log(語料庫的文檔總數(shù)/(包含該詞的文檔數(shù)+1))TF-IDF=TF*IDF特征提取的常用方法如下。特征提取方式特點特征提取讀取經(jīng)過分詞和去停用詞的文本調(diào)用TfidfTransformer類和CountVectorizer類使用CountVectorizer類將文本轉(zhuǎn)換為詞頻矩陣使用TfidfTransformer類進行特征提取對文本文件進行特征提取主要通過以下4個步驟實現(xiàn)。讀取新聞文本數(shù)據(jù)分詞和去停用詞特征提取讀取新聞文本數(shù)據(jù)讀取新聞文本數(shù)據(jù)的流程如下。查看新聞文本數(shù)據(jù)使用import和from導(dǎo)入re、os、json、pandas、TfidfTransformer、CountVectorizer等開發(fā)類庫使用os.listdir()方法指定文件的讀取路徑使用withopen()方法讀取新聞文本數(shù)據(jù)集,去除制表符、換行符、回車符查看數(shù)據(jù)新聞網(wǎng)站是信息時代人們獲取信息的重要途徑。新聞文本聚類采用來自新聞網(wǎng)站的數(shù)據(jù)合集,該數(shù)據(jù)共有4個類別標簽,分別為從政、經(jīng)濟、國際、體育。每個標簽下分別有500條新聞數(shù)據(jù)。構(gòu)建自定義函數(shù)編寫函數(shù)去除數(shù)據(jù)中的停用詞及分詞使用read_csv函數(shù)讀取停用詞表后,對于輸入?yún)?shù)data的每一行進行for循環(huán)。使用strip()方法刪除字符串左右兩側(cè)的空格或特殊字符。使用jieba庫的cut函數(shù)對剩余的文本進行分詞。使用for循環(huán)和停用詞表對分詞之后的文本進行去停用詞。將所有得到的文本儲存到列表corpus列表中。調(diào)用函數(shù)進行分詞和去停用詞調(diào)用編寫好的函數(shù),進行分詞和去停用詞。進行分詞和去停用詞后文本變成了一個個單獨且有意義的詞語。特征提取針對去停用詞后的數(shù)據(jù)使用TfidfTransformer進行特征提取。使用CountVectorizer類將提取的特征轉(zhuǎn)換為詞頻矩陣。構(gòu)建新聞文本聚類模型新聞文本聚類——聚類分析任務(wù)描述聚類是針對給定的樣本,依據(jù)它們特征的相似度或度量,將其歸并到若干個“類”或“簇”的數(shù)據(jù)分析問題。一個類是樣本的一個子集。直觀上,相似的樣本聚集在相同的類,不相似的樣本分散在不同的類。新聞文本聚類是將大量新聞文本根據(jù)其相似性劃分到不同的類別中,以便更好地理解和分析這些文本。本任務(wù)將使用K-Means算法和DBSCAN算法,對任務(wù)7.1中處理好的文本進行聚類分析并進行可視化展示。任務(wù)要求使用sklearn庫構(gòu)建K-Means模型。使用sklearn庫構(gòu)建DBSCAN模型。使用Matplotlib庫實現(xiàn)結(jié)果的可視化。K-MeansDBSCANK-Means聚類的目的是在沒有標簽或類別信息的情況下,將數(shù)據(jù)樣本歸為幾個不同的群組,以便更好地理解數(shù)據(jù)、識別數(shù)據(jù)的模式和規(guī)律,并進行更有效的數(shù)據(jù)分析。通過聚類,可以識別出數(shù)據(jù)中的不同類別或簇,這些簇可能具有相似的屬性、特征或行為。K-MeansK-Means聚類是基于樣本集合劃分的聚類算法。它將樣本集合劃分為k個子集,每個子集為一類。將n個樣本分到k個類中,使得每個樣本到其所屬類的中心的距離最短。在K-Means聚類中,每個樣本只能屬于一個類。將樣本分為了5類,可以從圖中看到,每個樣本只能屬于一個類,一個類的樣本都聚集在一起。K-MeansK-Means聚類算法是一個迭代的過程,過程如下。1選擇k個類的中心,將樣本分類到距離最近的類中2將每個類中樣本的均值作為新的類中心3重復(fù)以上步驟,直到每個類中樣本不再改變?yōu)橹筀-Means目標是最小化每個數(shù)據(jù)點與其所屬簇中心之間的距離的總和。其中,Xi表示第i個樣本,μj表示第j個類的中心。K-Means使用sklearn庫中的KMeans類建立K-Means模型,其基本使用格式如下。classsklearn.cluster.KMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,precompute_distances='deprecated',verbose=0,random_state=None,copy_x=True,n_jobs='deprecated',algorithm='auto')K-MeansKMeans類常用參數(shù)及其說明如下。參數(shù)名稱說明n_clusters接收int。表示要形成的簇數(shù)以及生成的質(zhì)心數(shù)。默認為8init接收方法名。表示所選擇的初始化方法,可選'k-means++','random',ndarray,callable。默認為'k-means++'n_init接收int。表示K均值算法將在不同質(zhì)心種子下運行的次數(shù)。默認為10max_iter接收int。表達單次運行的K均值算法的最大迭代次數(shù)。默認為300tol接收float。表示兩個連續(xù)迭代的聚類中心的差異,以聲明收斂。默認為1e-4random_state接收int。表示所確定的質(zhì)心初始化的隨機數(shù)的生成。默認為NoneK-MeansK-Means聚類初始化類中心的選擇方法如下。1k-means++是默認的方法,也是最常用的方法,它會智能地選擇初始聚類中心,使它們在整個數(shù)據(jù)集中更加均勻地分布。2random會從數(shù)據(jù)集中隨機選擇K個數(shù)據(jù)點作為初始聚類中心。相比于'k-means++',這種方法更加簡單和隨機。3ndarray可以傳入一個形狀為(K,n_features)的NumPy數(shù)組作為初始聚類中心。K代表數(shù)據(jù)點的個數(shù),n_features代表數(shù)據(jù)的維度。4callable可以傳入一個可調(diào)用對象(如函數(shù))作為初始聚類中心的選擇方法。該可調(diào)用對象應(yīng)接受數(shù)據(jù)集作為輸入,并返回形狀為(K,n_features)的數(shù)組作為初始聚類中心。K-Means對于應(yīng)用程序開發(fā)者而言,用戶的反饋至關(guān)重要。針對不同使用習慣、不同使用強度的顧客進行的問卷調(diào)查,有助于幫助開發(fā)者開發(fā)出好的產(chǎn)品。實踐是檢驗真理的唯一標準,理論只有來源于實踐、作用于實踐,才會具有強大的生命力。某應(yīng)用軟件想要對客戶進行問卷調(diào)查,客戶的使用信息儲存在客戶數(shù)據(jù)集(customer.csv)中,包括客戶的年齡(歲)、應(yīng)用使用時間(小時)。年齡(歲)使用時間(小時)5687281063315530198K-Means構(gòu)建K-Means模型的步驟如下。讀取文件構(gòu)建KMeans模型模型訓練輸出分類情況和類中心構(gòu)建新聞文本聚類模型新聞文本聚類——聚類分析任務(wù)描述聚類是針對給定的樣本,依據(jù)它們特征的相似度或度量,將其歸并到若干個“類”或“簇”的數(shù)據(jù)分析問題。一個類是樣本的一個子集。直觀上,相似的樣本聚集在相同的類,不相似的樣本分散在不同的類。新聞文本聚類是將大量新聞文本根據(jù)其相似性劃分到不同的類別中,以便更好地理解和分析這些文本。本任務(wù)將使用K-Means算法和DBSCAN算法,對任務(wù)7.1中處理好的文本進行聚類分析并進行可視化展示。任務(wù)要求使用sklearn庫構(gòu)建K-Means模型。使用sklearn庫構(gòu)建DBSCAN模型。使用Matplotlib庫實現(xiàn)結(jié)果的可視化。K-MeansDBSCANDBSCANDBSCAN是一種基于密度的聚類算法,與K-Means聚類算法不同,它不需要預(yù)先指定聚類的數(shù)量。相反,DBSCAN通過將數(shù)據(jù)點分為核心點、邊界點和噪聲點,從而發(fā)現(xiàn)任意形狀的簇。DBSCAN在DBSCAN中,每個數(shù)據(jù)點都有兩個重要的參數(shù):鄰域半徑(r)和最小點數(shù)(k)。N(xi)為xi的一個鄰域,r為鄰域半徑。鄰域半徑?jīng)Q定了一個點周圍的范圍,而最小點數(shù)是確定一個點是核心點的最小鄰居數(shù)。核心點是在其鄰域內(nèi)至少有k個數(shù)據(jù)點的數(shù)據(jù)點,而邊界點是鄰域內(nèi)少于k個數(shù)據(jù)點但位于核心點鄰域中的數(shù)據(jù)點。噪聲點是不屬于任何簇的點。DBSCANDBSCAN的算法是一個遍歷的過程,過程如下。首先隨機選擇一個未被訪問的數(shù)據(jù)點,并找到其鄰域內(nèi)的所有點。如果該點的鄰域內(nèi)有至少k個點,則將該點標記為核心點,并將其鄰域內(nèi)的所有點加入該簇中,并將鄰域內(nèi)所有點標記為已訪問。如果該點的鄰域內(nèi)少于k個點,則將該點標記為噪聲點。核心點噪聲點DBSCANDBSCAN的算法是一個遍歷的過程,過程如下。首先隨機選擇一個未被訪問的數(shù)據(jù)點,并找到其鄰域內(nèi)的所有點。如果該點的鄰域內(nèi)有至少k個點,則將該點標記為核心點,并將其鄰域內(nèi)的所有點加入該簇中,并將鄰域內(nèi)所有點標記為已訪問;如果該點的鄰域內(nèi)少于k個點,則將該點標記為噪聲點。重復(fù)上述步驟,直到所有數(shù)據(jù)點都被訪問,如右圖所示。DBSCAN使用sklearn庫中的DBSCAN類建立DBSCAN模型,其基本使用格式如下。classsklearn.cluster.DBSCAN(eps=0.5,min_samples=5,metric='euclidean',metric_params=None,algorithm='auto',leaf_size=30,p=None,n_jobs=None)DBSCANDBSCAN類常用參數(shù)及其說明如下。參數(shù)名稱參數(shù)說明eps接收float。表示同一個簇中兩個樣本之間的最大距離,而該距離還被視為另一個樣本的鄰域。默認為0.5min_samples接收int。表示一個點附近的樣品數(shù)量(或總重量)被視為核心點。默認為5metric接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論