




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
文本預(yù)處理與特征選擇文本預(yù)處理與特征選擇/NUMPAGES12文本預(yù)處理與特征選擇文本預(yù)處理與特征選擇我們運(yùn)用爬蟲(chóng)在網(wǎng)頁(yè)上抓取文本數(shù)據(jù),經(jīng)過(guò)文本切分得出1000個(gè)中文文本。由于爬下來(lái)的文本中有很多html的標(biāo)簽,因此首先我們要去除這些非文本的內(nèi)容。接下來(lái),我們就要進(jìn)行真正的文本預(yù)處理。文本預(yù)處理文本分詞——中文分詞中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程,中文分詞是文本挖掘的基礎(chǔ)。中文分詞所要解決的關(guān)鍵問(wèn)題就是通用詞表和切分規(guī)范、切分歧義和登錄詞識(shí)別(人名、地名等),中文分詞方法可以大致分為3類:1.1機(jī)械分詞方法機(jī)械分詞方法又叫作基于字符串匹配的分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)械詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功。目前機(jī)械分詞有三種方法:正向最大匹配法(由左到右)逆向最大匹配法(由右到左)最少切分(使每一句中切出的詞數(shù)最?。┲饕^(guò)程:“我要去南京師范大學(xué)”。對(duì)于這句話,運(yùn)用正向最大匹配法。首先,“最大”是指我們每次都取最大詞長(zhǎng)進(jìn)行匹配。假設(shè)詞典中最長(zhǎng)次長(zhǎng)度為4,從左向右取4個(gè)字就是“我要去南”,然后與詞典中的詞條進(jìn)行匹配,顯然詞典中沒(méi)有這個(gè)詞,我們將最后一個(gè)字去掉變成“我要去”,同樣再到詞典中進(jìn)行匹配,一直到“我”匹配成功,就可以將句子切分開(kāi):“我/要去南”。接下倆從下一個(gè)字繼續(xù)取4個(gè)字“要去南京”作為一個(gè)詞到詞典中進(jìn)行匹配,重復(fù)上述步驟,就可以將整個(gè)句子切分為:“我/要/去/南京/師范大學(xué)”。由此我們也可以類推出逆向最大匹配法。切出來(lái)的句子為:“我/要/去/南京/師范大學(xué)”。缺點(diǎn):長(zhǎng)度限制最大匹配法必須要先設(shè)定一個(gè)最長(zhǎng)詞長(zhǎng)進(jìn)行匹配。若詞長(zhǎng)過(guò)短,長(zhǎng)詞會(huì)被切錯(cuò),比如詞長(zhǎng)為5,“中華人民共和國(guó)”這樣7詞長(zhǎng)的詞就會(huì)被錯(cuò)切;若詞長(zhǎng)過(guò)長(zhǎng),效率會(huì)較低,假設(shè)最大詞長(zhǎng)為100,我們必須將詞從100開(kāi)始一直往下匹配到要找到所要查的詞,這意味著要有很大的工作量。掩蓋分詞歧義中文的句子構(gòu)成成分很復(fù)雜,所以正向匹配和逆向匹配會(huì)出現(xiàn)結(jié)果不同的情況。比如“有意見(jiàn)分歧”正向最大匹配:“有意/見(jiàn)/分歧”逆向最大匹配:“有/意見(jiàn)/分歧”最大匹配的不一定是想要的分詞方式機(jī)械分詞基于找到最大的匹配詞,但有時(shí)候除了最大詞外,我們想要的只是這個(gè)詞的一部分。1.2基于統(tǒng)計(jì)分詞方法基于統(tǒng)計(jì)分詞方法就是先切分出與詞表匹配的所有可能的詞,然后運(yùn)用統(tǒng)計(jì)語(yǔ)言模型和決策算法來(lái)決定最優(yōu)的切分結(jié)果。主要步驟:獲取候選詞—構(gòu)造前趨詞—尋找最佳前趨詞—確定最優(yōu)路徑缺點(diǎn):不能解決交集型和組合型歧義問(wèn)題。1.3基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合的方法我們選擇的中文分詞方法是機(jī)械分詞方法。過(guò)濾虛詞過(guò)濾掉文本中一些沒(méi)有意義的虛詞和標(biāo)點(diǎn)符號(hào)同義詞合并特征選擇卡方檢驗(yàn)(CHI)卡方檢驗(yàn)是以X^2分布為基礎(chǔ)的一種常用假設(shè)檢驗(yàn)方法,它的無(wú)效假設(shè)H0是觀察頻數(shù)與期望頻數(shù)沒(méi)有差別(有效假設(shè)為H1,即兩者之間有差別)。公式:主要思想:X^2指實(shí)際值與理論值的差異,A為實(shí)際值,T為理論值。首先假設(shè)H0成立,基于此前提計(jì)算出x^2的值。x^2值越小,觀察頻數(shù)與期望頻數(shù)之間差別越小,H0成立;反之H1成立。主要過(guò)程:例:選取一堆新聞標(biāo)題,標(biāo)題中含有吳亦凡的與該條新聞屬于娛樂(lè)新聞是否有關(guān)。觀察值:屬于娛樂(lè)新聞不屬于娛樂(lè)新聞合計(jì)不包含吳亦凡203252包含吳亦凡361248合計(jì)5644100首先假設(shè)標(biāo)題是否含有吳亦凡和新聞是否是娛樂(lè)新聞是無(wú)關(guān)的(無(wú)關(guān)性假設(shè)H0)。隨機(jī)抽取一條標(biāo)題,是娛樂(lè)新聞的概率為:P=56/100=56%根據(jù)無(wú)關(guān)性假設(shè)H0生成期望的表格期望值:屬于娛樂(lè)新聞不屬于娛樂(lè)新聞合計(jì)不包含吳亦凡52*0.56=29.1252*0.44=22.8852包含吳亦凡48*0.56=26.8848*0.44=21.1248如果兩個(gè)變量無(wú)關(guān),那么實(shí)際值與理論值的差異會(huì)很小,即無(wú)關(guān)性假設(shè)H0成立。根據(jù)公式可以算出:X^2=(20-29.12)^2/29.12+(32-22.88)^2/22.88+(36-26.88)^2/26.88+(12-21.12)^2/21.12=12.93得出卡方值為12.93。確定自由度為(2-1)(2-1)=1,選擇顯著水平α=0.05,利用Excel提供的CHIINV函數(shù)計(jì)算顯著水平為0.05,自由度為1卡方分布的臨界值,將臨界值與統(tǒng)計(jì)值x^2比較,若統(tǒng)計(jì)值小于臨界值,則H0成立,反之不成立。缺點(diǎn):卡方檢驗(yàn)只統(tǒng)計(jì)了是否包含或者是否存在,對(duì)包含或存在的次數(shù)沒(méi)有要求,盡管有些詞條在文本中出現(xiàn),但是由于該詞條出現(xiàn)次數(shù)少,不能代表這類文本的特征。信息增益(IG)信息增益指在某一個(gè)確定的條件下,信息的不確定性減少的程度。信息增益=熵-條件熵(熵:隨機(jī)變量的不確定性,條件熵:在某一個(gè)條件下,隨機(jī)變量的不確定性)主要思想:對(duì)于一個(gè)特征條件t,系統(tǒng)在有它和沒(méi)有它的情況下信息量是多少,兩者的差值就是條件t給系統(tǒng)帶來(lái)的信息量,即信息增益。根據(jù)信息增益可以確定是否可以按照條件t來(lái)給數(shù)據(jù)進(jìn)行分類。缺點(diǎn):信息增益只能考察特征條件t對(duì)整個(gè)系統(tǒng)的影響程度,而不能具體到某個(gè)類別上,它只適合用來(lái)做整個(gè)系統(tǒng)的特征選擇,也就是所有類別的文本都使用相同的特征集合。但每個(gè)類別的文本都有自己的特征集合,有的詞對(duì)某一類別很有區(qū)分度,但對(duì)其他類別的影響卻很小?;バ畔ⅲ∕I)表示兩個(gè)變量X和Y之間是否有關(guān)系,以及關(guān)系的強(qiáng)弱。簡(jiǎn)單說(shuō)倆就是X由于Y減少的不確定性。公式:互信息與信息增益的原理相近,只是互信息不考慮特征條件t不出現(xiàn)的情況。缺點(diǎn):互信息只考慮了詞條的存在對(duì)某一類別文本的影響,沒(méi)有考慮到該詞條的詞頻對(duì)文本的影響因素。文檔頻率(DF)文檔頻率指在文檔集合中出現(xiàn)特征詞條的文檔數(shù),根據(jù)它可以衡量特征詞的重要程度。主要思想:首先設(shè)定最小和最大文檔頻率閾值,然后計(jì)算每個(gè)特征詞條的文檔頻率。如果該詞條的文檔頻率不在閾值范圍區(qū)間內(nèi)則刪除,否則保留。優(yōu)點(diǎn):最簡(jiǎn)單的降低特征空間維數(shù)的方法。缺點(diǎn):文檔頻率的特征選擇方法屬于無(wú)監(jiān)督的學(xué)習(xí)算法,僅僅只考慮的詞條的頻率因素,而沒(méi)有考慮到類別因素。比如中文詞條中“的”、“是”等無(wú)意義的詞條,它們?cè)诟黝愇谋局谐霈F(xiàn)頻率都很高,但本身沒(méi)有多大意義。而某些文檔頻率低的詞由于本身的特殊性,其實(shí)對(duì)文本的影響很大,若用文檔頻率來(lái)進(jìn)行特征選擇,會(huì)誤刪這些低頻的有意義的詞條。TF-IDFTF-IDF指某一特征詞在文本中的重要程度。如果某個(gè)詞或短語(yǔ)在一篇文本中出現(xiàn)的頻率TF高,并且在其他文本中很少出現(xiàn),即IDF越大(分母越小),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。公式:TF=在所有文本中特征詞t出現(xiàn)的次數(shù)/文本中所有詞條的數(shù)目IDF=log(文本庫(kù)中的文本總數(shù)/包含特征詞t的文本數(shù)+1)缺點(diǎn):同樣,TF-IDF只單純以詞頻來(lái)衡量一個(gè)特征詞的重要程度,忽略了某些重要的特征詞出現(xiàn)次數(shù)少的情況。同時(shí),如果在某一類文本中,特征詞t在該類的幾篇文檔中出現(xiàn),而
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國(guó)盆景行業(yè)發(fā)展趨勢(shì)規(guī)劃分析報(bào)告
- 柳州城市職業(yè)學(xué)院《城鄉(xiāng)規(guī)劃原理C》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東體育學(xué)院《有機(jī)化學(xué)I2》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣州城市理工學(xué)院《交換原理與NGN》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025年海南省安全員考試題庫(kù)附答案
- 遼寧工程技術(shù)大學(xué)《領(lǐng)導(dǎo)科學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 山東商業(yè)職業(yè)技術(shù)學(xué)院《生物化學(xué)與分子生物學(xué)(含遺傳學(xué))》2023-2024學(xué)年第二學(xué)期期末試卷
- 鄭州城市職業(yè)學(xué)院《英語(yǔ)高級(jí)視聽(tīng)說(shuō)》2023-2024學(xué)年第二學(xué)期期末試卷
- 德宏師范高等??茖W(xué)?!?0世紀(jì)西方文學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湛江科技學(xué)院《土木工程施工技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 中建10t龍門吊安拆安全專項(xiàng)施工方案
- 國(guó)內(nèi)外測(cè)井技術(shù)現(xiàn)狀與展望文檔
- 《銷售人員的培訓(xùn)》課件
- 國(guó)防動(dòng)員課件教學(xué)課件
- 特殊作業(yè)安全管理監(jiān)護(hù)人專項(xiàng)培訓(xùn)課件
- 衛(wèi)生技術(shù)人員準(zhǔn)入制度
- 自行車被盜案匯報(bào)課件
- 律師事務(wù)所案件管理手冊(cè)
- 《節(jié)水評(píng)價(jià)技術(shù)導(dǎo)則》
- 簡(jiǎn)單酒店裝修合同書(shū)范本(30篇)
- 2024-2030年中國(guó)核桃油行業(yè)消費(fèi)趨勢(shì)及競(jìng)爭(zhēng)格局分析研究報(bào)告
評(píng)論
0/150
提交評(píng)論