《數(shù)據(jù)挖掘與機器學(xué)習》 課件7.1.2 去停用詞和特征提取、處理新聞文本數(shù)據(jù)_第1頁
《數(shù)據(jù)挖掘與機器學(xué)習》 課件7.1.2 去停用詞和特征提取、處理新聞文本數(shù)據(jù)_第2頁
《數(shù)據(jù)挖掘與機器學(xué)習》 課件7.1.2 去停用詞和特征提取、處理新聞文本數(shù)據(jù)_第3頁
《數(shù)據(jù)挖掘與機器學(xué)習》 課件7.1.2 去停用詞和特征提取、處理新聞文本數(shù)據(jù)_第4頁
《數(shù)據(jù)挖掘與機器學(xué)習》 課件7.1.2 去停用詞和特征提取、處理新聞文本數(shù)據(jù)_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

處理新聞文本數(shù)據(jù)新聞文本聚類——聚類分析任務(wù)描述文本數(shù)據(jù)清洗是指對文本數(shù)據(jù)進行處理,以去除其中的噪聲、錯誤和無用信息,使得數(shù)據(jù)更加準確、可靠和適合分析,在文本分析和挖掘領(lǐng)域中具有非常重要的意義。經(jīng)過清洗的數(shù)據(jù)有著更好的數(shù)據(jù)質(zhì)量,能夠使得后續(xù)的數(shù)據(jù)挖掘更加精準有效。本任務(wù)將對新聞文本數(shù)據(jù)進行清洗,包括文本讀取、分詞、去停用詞和特征提取。任務(wù)要求使用withopen函數(shù)讀取文本文件。使用jieba庫進行文本分詞。使用stoptxt停用詞表去停用詞。使用TfidfTransformer類進行文本特征提取。讀取文件jieba分詞去停用詞特征提取去停用詞為什么進行去停用詞?在文本處理中,停用詞是指一些功能極其普遍,與其他詞相比沒有什么實際含義的詞,通常是一些單字,單字母以及高頻的單詞。例如,中文中的“我、的、了、地、嗎”等,英文中的“the、this、an、a、of”等。對于停用詞一般在預(yù)處理階段就將其刪除,避免對文本,特別是短文本,造成負面影響。去停用詞對文本文件進行去停用詞主要通過以下4個步驟實現(xiàn)。使用withopen或open讀取文件使用read.csv讀取停用詞表用for循環(huán)遍歷文件,去除與停用詞表相同的部分將結(jié)果保存到表格中特征提取特征提取是指根據(jù)某個特征評估函數(shù)計算各個特征的評分值,再按評分值對這些特征進行排序,選取若干個評分值最高的作為特征。特征提取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),從而簡化計算,提高文本處理的速度和效率。什么是特征提???特征提取特征提取的常用方法如下。特征提取方式特點詞頻模型考慮單詞出現(xiàn)頻率,不考慮上下文信息,簡單高效。通過詞頻模型進行特征提取就是將詞頻小于某一值或大于某一值的詞刪除,從而降低特征空間的維數(shù),詞頻是一個詞在文檔中出現(xiàn)的次數(shù)。該模型是基于這樣一個假設(shè),即出現(xiàn)頻率小的詞對文章的影響也較小,出現(xiàn)頻率大的詞可能是無意義的普通詞。但是在信息檢索的研究中認為,有時頻率小的詞含有更多的信息。因此,在特征選擇的過程中不宜簡單地根據(jù)詞頻大幅度刪詞詞頻(TF)=某個詞在文章中的出現(xiàn)次數(shù)/文章的總詞數(shù)特征提取特征提取的常用方法如下。詞頻模型考慮單詞出現(xiàn)頻率,不考慮上下文信息,簡單高效。N-gram模型考慮相鄰單詞組合的特征,可以捕捉到一定的上下文信息。TF—IDF模型既考慮單詞出現(xiàn)頻率,也考慮在文本集合中單詞的普遍重要性。N-gram模型考慮相鄰單詞組合的特征,可以捕捉到一定的上下文信息。N-gram模型是在詞頻模型的基礎(chǔ)上,考慮相鄰的N個單詞作為一個特征,N一般取2或3。該模型基于這樣一種假設(shè),第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以直接通過從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到特征提取方式特點特征提取TF—IDF模型既考慮單詞出現(xiàn)頻率,也考慮在文本集合中單詞的普遍重要性。TF-IDF模型既逆文本頻率指數(shù)。其中某一特定詞語的逆文件頻率(IDF),可以由總文件數(shù)目除以包含該詞語的文件的數(shù)目,再將得到的商取對數(shù)得到。將詞頻與逆文檔頻率相乘既得到逆文本頻率指數(shù)。該模型基于這樣一個假設(shè),字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF可以有效評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度逆文檔頻率(IDF)=log(語料庫的文檔總數(shù)/(包含該詞的文檔數(shù)+1))TF-IDF=TF*IDF特征提取的常用方法如下。特征提取方式特點特征提取讀取經(jīng)過分詞和去停用詞的文本調(diào)用TfidfTransformer類和CountVectorizer類使用CountVectorizer類將文本轉(zhuǎn)換為詞頻矩陣使用TfidfTransformer類進行特征提取對文本文件進行特征提取主要通過以下4個步驟實現(xiàn)。讀取新聞文本數(shù)據(jù)分詞和去停用詞特征提取讀取新聞文本數(shù)據(jù)讀取新聞文本數(shù)據(jù)的流程如下。查看新聞文本數(shù)據(jù)使用import和from導(dǎo)入re、os、json、pandas、TfidfTransformer、CountVectorizer等開發(fā)類庫使用os.listdir()方法指定文件的讀取路徑使用withopen()方法讀取新聞文本數(shù)據(jù)集,去除制表符、換行符、回車符查看數(shù)據(jù)新聞網(wǎng)站是信息時代人們獲取信息的重要途徑。新聞文本聚類采用來自新聞網(wǎng)站的數(shù)據(jù)合集,該數(shù)據(jù)共有4個類別標簽,分別為從政、經(jīng)濟、國際、體育。每個標簽下分別有500條新聞數(shù)據(jù)。構(gòu)建自定義函數(shù)編寫函數(shù)去除數(shù)據(jù)中的停用詞及分詞使用read_csv函數(shù)讀取停用詞表后,對于輸入?yún)?shù)data的每一行進行for循環(huán)。使用strip()方法刪除字符串左右兩側(cè)的空格或特殊字符。使用jieba庫的cut函數(shù)對剩余的文本進行分詞。使用for循環(huán)和停用詞表對分詞之后的文本進行去停用詞。將所有得到的文本儲存到列表corpus列表中。調(diào)用函數(shù)進行分詞和去停用詞調(diào)用編寫好的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論