文本預(yù)處理與特征選擇

上傳人：1*** IP屬地：浙江上傳時(shí)間：2023-05-24 格式：DOC 頁(yè)數(shù)：12 大?。?48KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

文本預(yù)處理與特征選擇文本預(yù)處理與特征選擇/NUMPAGES12文本預(yù)處理與特征選擇文本預(yù)處理與特征選擇我們運(yùn)用爬蟲(chóng)在網(wǎng)頁(yè)上抓取文本數(shù)據(jù)，經(jīng)過(guò)文本切分得出1000個(gè)中文文本。由于爬下來(lái)的文本中有很多html的標(biāo)簽，因此首先我們要去除這些非文本的內(nèi)容。接下來(lái)，我們就要進(jìn)行真正的文本預(yù)處理。文本預(yù)處理文本分詞——中文分詞中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程，中文分詞是文本挖掘的基礎(chǔ)。中文分詞所要解決的關(guān)鍵問(wèn)題就是通用詞表和切分規(guī)范、切分歧義和登錄詞識(shí)別（人名、地名等），中文分詞方法可以大致分為3類：1.1機(jī)械分詞方法機(jī)械分詞方法又叫作基于字符串匹配的分詞方法，它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)械詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè)字符串，則匹配成功。目前機(jī)械分詞有三種方法：正向最大匹配法（由左到右）逆向最大匹配法（由右到左）最少切分（使每一句中切出的詞數(shù)最?。┲饕^(guò)程：“我要去南京師范大學(xué)”。對(duì)于這句話，運(yùn)用正向最大匹配法。首先，“最大”是指我們每次都取最大詞長(zhǎng)進(jìn)行匹配。假設(shè)詞典中最長(zhǎng)次長(zhǎng)度為4，從左向右取4個(gè)字就是“我要去南”，然后與詞典中的詞條進(jìn)行匹配，顯然詞典中沒(méi)有這個(gè)詞，我們將最后一個(gè)字去掉變成“我要去”，同樣再到詞典中進(jìn)行匹配，一直到“我”匹配成功，就可以將句子切分開(kāi)：“我/要去南”。接下倆從下一個(gè)字繼續(xù)取4個(gè)字“要去南京”作為一個(gè)詞到詞典中進(jìn)行匹配，重復(fù)上述步驟，就可以將整個(gè)句子切分為：“我/要/去/南京/師范大學(xué)”。由此我們也可以類推出逆向最大匹配法。切出來(lái)的句子為：“我/要/去/南京/師范大學(xué)”。缺點(diǎn)：長(zhǎng)度限制最大匹配法必須要先設(shè)定一個(gè)最長(zhǎng)詞長(zhǎng)進(jìn)行匹配。若詞長(zhǎng)過(guò)短，長(zhǎng)詞會(huì)被切錯(cuò)，比如詞長(zhǎng)為5，“中華人民共和國(guó)”這樣7詞長(zhǎng)的詞就會(huì)被錯(cuò)切；若詞長(zhǎng)過(guò)長(zhǎng)，效率會(huì)較低，假設(shè)最大詞長(zhǎng)為100，我們必須將詞從100開(kāi)始一直往下匹配到要找到所要查的詞，這意味著要有很大的工作量。掩蓋分詞歧義中文的句子構(gòu)成成分很復(fù)雜，所以正向匹配和逆向匹配會(huì)出現(xiàn)結(jié)果不同的情況。比如“有意見(jiàn)分歧”正向最大匹配：“有意/見(jiàn)/分歧”逆向最大匹配：“有/意見(jiàn)/分歧”最大匹配的不一定是想要的分詞方式機(jī)械分詞基于找到最大的匹配詞，但有時(shí)候除了最大詞外，我們想要的只是這個(gè)詞的一部分。1.2基于統(tǒng)計(jì)分詞方法基于統(tǒng)計(jì)分詞方法就是先切分出與詞表匹配的所有可能的詞，然后運(yùn)用統(tǒng)計(jì)語(yǔ)言模型和決策算法來(lái)決定最優(yōu)的切分結(jié)果。主要步驟：獲取候選詞—構(gòu)造前趨詞—尋找最佳前趨詞—確定最優(yōu)路徑缺點(diǎn)：不能解決交集型和組合型歧義問(wèn)題。1.3基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合的方法我們選擇的中文分詞方法是機(jī)械分詞方法。過(guò)濾虛詞過(guò)濾掉文本中一些沒(méi)有意義的虛詞和標(biāo)點(diǎn)符號(hào)同義詞合并特征選擇卡方檢驗(yàn)（CHI）卡方檢驗(yàn)是以X^2分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法，它的無(wú)效假設(shè)H0是觀察頻數(shù)與期望頻數(shù)沒(méi)有差別（有效假設(shè)為H1，即兩者之間有差別）。公式：主要思想：X^2指實(shí)際值與理論值的差異，A為實(shí)際值，T為理論值。首先假設(shè)H0成立，基于此前提計(jì)算出x^2的值。x^2值越小，觀察頻數(shù)與期望頻數(shù)之間差別越小，H0成立；反之H1成立。主要過(guò)程：例：選取一堆新聞標(biāo)題，標(biāo)題中含有吳亦凡的與該條新聞屬于娛樂(lè)新聞是否有關(guān)。觀察值：屬于娛樂(lè)新聞不屬于娛樂(lè)新聞合計(jì)不包含吳亦凡203252包含吳亦凡361248合計(jì)5644100首先假設(shè)標(biāo)題是否含有吳亦凡和新聞是否是娛樂(lè)新聞是無(wú)關(guān)的（無(wú)關(guān)性假設(shè)H0）。隨機(jī)抽取一條標(biāo)題，是娛樂(lè)新聞的概率為：P=56/100=56%根據(jù)無(wú)關(guān)性假設(shè)H0生成期望的表格期望值：屬于娛樂(lè)新聞不屬于娛樂(lè)新聞合計(jì)不包含吳亦凡52*0.56=29.1252*0.44=22.8852包含吳亦凡48*0.56=26.8848*0.44=21.1248如果兩個(gè)變量無(wú)關(guān)，那么實(shí)際值與理論值的差異會(huì)很小，即無(wú)關(guān)性假設(shè)H0成立。根據(jù)公式可以算出：X^2=（20-29.12）^2/29.12+（32-22.88）^2／22.88+（36-26.88）^2/26.88+（12-21.12）^2/21.12=12.93得出卡方值為12.93。確定自由度為（2-1）（2-1）=1，選擇顯著水平α=0.05，利用Excel提供的CHIINV函數(shù)計(jì)算顯著水平為0.05，自由度為1卡方分布的臨界值，將臨界值與統(tǒng)計(jì)值x^2比較，若統(tǒng)計(jì)值小于臨界值，則H0成立，反之不成立。缺點(diǎn)：卡方檢驗(yàn)只統(tǒng)計(jì)了是否包含或者是否存在，對(duì)包含或存在的次數(shù)沒(méi)有要求，盡管有些詞條在文本中出現(xiàn)，但是由于該詞條出現(xiàn)次數(shù)少，不能代表這類文本的特征。信息增益（IG）信息增益指在某一個(gè)確定的條件下，信息的不確定性減少的程度。信息增益=熵-條件熵（熵：隨機(jī)變量的不確定性，條件熵：在某一個(gè)條件下，隨機(jī)變量的不確定性）主要思想：對(duì)于一個(gè)特征條件t，系統(tǒng)在有它和沒(méi)有它的情況下信息量是多少，兩者的差值就是條件t給系統(tǒng)帶來(lái)的信息量，即信息增益。根據(jù)信息增益可以確定是否可以按照條件t來(lái)給數(shù)據(jù)進(jìn)行分類。缺點(diǎn)：信息增益只能考察特征條件t對(duì)整個(gè)系統(tǒng)的影響程度，而不能具體到某個(gè)類別上，它只適合用來(lái)做整個(gè)系統(tǒng)的特征選擇，也就是所有類別的文本都使用相同的特征集合。但每個(gè)類別的文本都有自己的特征集合，有的詞對(duì)某一類別很有區(qū)分度，但對(duì)其他類別的影響卻很小?；バ畔ⅲ∕I）表示兩個(gè)變量X和Y之間是否有關(guān)系，以及關(guān)系的強(qiáng)弱。簡(jiǎn)單說(shuō)倆就是X由于Y減少的不確定性。公式：互信息與信息增益的原理相近，只是互信息不考慮特征條件t不出現(xiàn)的情況。缺點(diǎn)：互信息只考慮了詞條的存在對(duì)某一類別文本的影響，沒(méi)有考慮到該詞條的詞頻對(duì)文本的影響因素。文檔頻率（DF）文檔頻率指在文檔集合中出現(xiàn)特征詞條的文檔數(shù)，根據(jù)它可以衡量特征詞的重要程度。主要思想：首先設(shè)定最小和最大文檔頻率閾值，然后計(jì)算每個(gè)特征詞條的文檔頻率。如果該詞條的文檔頻率不在閾值范圍區(qū)間內(nèi)則刪除，否則保留。優(yōu)點(diǎn)：最簡(jiǎn)單的降低特征空間維數(shù)的方法。缺點(diǎn)：文檔頻率的特征選擇方法屬于無(wú)監(jiān)督的學(xué)習(xí)算法，僅僅只考慮的詞條的頻率因素，而沒(méi)有考慮到類別因素。比如中文詞條中“的”、“是”等無(wú)意義的詞條，它們?cè)诟黝愇谋局谐霈F(xiàn)頻率都很高，但本身沒(méi)有多大意義。而某些文檔頻率低的詞由于本身的特殊性，其實(shí)對(duì)文本的影響很大，若用文檔頻率來(lái)進(jìn)行特征選擇，會(huì)誤刪這些低頻的有意義的詞條。TF-IDFTF-IDF指某一特征詞在文本中的重要程度。如果某個(gè)詞或短語(yǔ)在一篇文本中出現(xiàn)的頻率TF高，并且在其他文本中很少出現(xiàn)，即IDF越大（分母越小），則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力，適合用來(lái)分類。公式：TF=在所有文本中特征詞t出現(xiàn)的次數(shù)/文本中所有詞條的數(shù)目IDF=log(文本庫(kù)中的文本總數(shù)／包含特征詞t的文本數(shù)+1)缺點(diǎn)：同樣，TF-IDF只單純以詞頻來(lái)衡量一個(gè)特征詞的重要程度，忽略了某些重要的特征詞出現(xiàn)次數(shù)少的情況。同時(shí)，如果在某一類文本中，特征詞t在該類的幾篇文檔中出現(xiàn)，而

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 工作計(jì)劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

文本預(yù)處理與特征選擇

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

文本預(yù)處理與特征選擇

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔