基于隨機(jī)森林文本分類探究_第1頁
基于隨機(jī)森林文本分類探究_第2頁
基于隨機(jī)森林文本分類探究_第3頁
基于隨機(jī)森林文本分類探究_第4頁
基于隨機(jī)森林文本分類探究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、基于隨機(jī)森林文本分類探究摘要:文本分類是處理和組織大量文本數(shù)據(jù)的關(guān)鍵 技術(shù),它一直是信息檢索領(lǐng)域中的一個(gè)研究熱點(diǎn)。文本分類 旨在將大量文本劃分到若干子類,使得各文本子類代表不同 的概念主題。文章采用了一種基于隨機(jī)森林的文本分類方 法。該方法來源于基于決策樹的機(jī)器學(xué)習(xí),依據(jù)文本內(nèi)容的 分詞結(jié)果進(jìn)行機(jī)器學(xué)習(xí),將文本中信息量高的詞匯提取出來 作為學(xué)習(xí)維度,可以準(zhǔn)確地對文本進(jìn)行分類。由于隨機(jī)森林 算法1具有高并發(fā),快速收斂的優(yōu)點(diǎn),非常適合海量數(shù)據(jù) 的處理。關(guān)鍵詞:決策樹分類;機(jī)器學(xué)習(xí);森林1問題分析和算法描述隨機(jī)森林可以看成是bagging和隨機(jī)子空間的結(jié)合。隨 機(jī)森林是由一系列的分類器組合在一起進(jìn)行

2、決策2,期望 得到一個(gè)最“公平”的學(xué)習(xí)方法。如圖1所示,構(gòu)造每一個(gè) 分類器需要從原數(shù)據(jù)集中隨機(jī)抽取出一部分樣本作為樣本 子空間,然后再從樣本子空間中隨機(jī)的選取一個(gè)新的特征子 空間4,在這個(gè)新空間中建立決策樹作為分類器,最后通 過投票的方法得到最終決(如圖1)。圖11. 1構(gòu)建單棵決策樹(1)對于訓(xùn)練集s,如果訓(xùn)練集數(shù)據(jù)都屬于一個(gè)類標(biāo)簽 c,或s足夠純凈(85%以上的數(shù)據(jù)都屬于類標(biāo)簽c時(shí)),否 則創(chuàng)建葉子節(jié)點(diǎn),表明類標(biāo)簽c。(2)否則,選擇“最具有信息”的屬性a:依據(jù)a來劃分訓(xùn)練集s;遞歸的劃分訓(xùn)練集來構(gòu)造子樹。1.2構(gòu)建隨機(jī)森林從原始數(shù)據(jù)中產(chǎn)生n個(gè)隨機(jī)抽樣。對于每一個(gè)抽樣,訓(xùn)練一個(gè)未剪枝的決策

3、樹,對于每 個(gè)節(jié)點(diǎn),不是在所有屬性中挑選分割最好的決策樹,而是在 m個(gè)抽樣出來的屬性中挑選最好的那個(gè)。對數(shù)據(jù)集進(jìn)行預(yù)測,并搜集各個(gè)樹的預(yù)測結(jié)果,以眾 數(shù)(出現(xiàn)最多的值)給出最后的預(yù)測結(jié)果。1.3說明一個(gè)單詞包含的信息量,用特征單詞在文檔中出現(xiàn)的頻 率p,和該詞的反文檔頻率q來表示(如果一個(gè)單詞在很多 文檔中出現(xiàn)的頻率都很高,那么這個(gè)單詞過于普遍,不足以 用來表征一篇文檔)。文本中詞匯信息量的維度可以采 “炳”來衡量,設(shè)d為用類別對訓(xùn)練元組進(jìn)行的劃分,則d 的爛(entropy)表示為:其中pi表示第i個(gè)類別在整個(gè)訓(xùn)練元組中出現(xiàn)的概率, 可以用屬于此類別元素的數(shù)量除以訓(xùn)練元組元素總數(shù)量作 為估計(jì)

4、。炳的實(shí)際意義是d中元組的類標(biāo)號所需要的平均信 息量?,F(xiàn)在我們假設(shè)將訓(xùn)練元組d按屬性a進(jìn)行劃分,則a 對d劃分的期望信息為:在選取信息量最大的屬性是我們依照公式3選取對樣 本及最大的屬性a。2實(shí)驗(yàn)步驟2. 1提取實(shí)驗(yàn)文檔實(shí)驗(yàn)采用搜狗語料庫精簡版,其分類體系包括幾十個(gè)分 類節(jié)點(diǎn),網(wǎng)頁規(guī)模約為十萬篇文檔。2.2文本特征提取、降維采用前面提到的信息增量的辦法來衡量信息的有效性, 分別計(jì)算分詞后各詞的信息增量gain(a),對語料庫中1791 篇短文分詞,共得到共有前4685個(gè)不同的詞組,如果全部 計(jì)算,則運(yùn)算矩陣維數(shù)過高,需要依據(jù)gain (a)選取區(qū)分 度高的詞匯作為候選特征。2. 3文本向量化依

5、據(jù)詞在文本中出現(xiàn)的頻率,采用tf*idf向量化對文 本進(jìn)行向量化。向量化結(jié)果如表1所示:表1按照上面描述的算法對文檔進(jìn)行分類。如果原始訓(xùn)練集 s中有n篇文本,使用有放回抽樣,從s中抽出n篇文本作 為建立第i棵樹的訓(xùn)練集si,調(diào)用建立決策樹過程,訓(xùn)練單 個(gè)文本分類器。其中,如果si有mall維特征,則隨機(jī)地選 取mtry維特征,并且在這mtry維特征中選取分類效果最好 的一個(gè)特征a作為該結(jié)點(diǎn)的分裂屬性。2.4試驗(yàn)結(jié)果分析及解釋(表2):表23試驗(yàn)結(jié)果分析依據(jù)實(shí)驗(yàn)結(jié)果,隨機(jī)森林方法分類的平均準(zhǔn)確率和平均 查全率要優(yōu)于貝葉斯方法,主要原因是排除了貝葉斯方法中 特征互相獨(dú)立的不合理假設(shè),將對文檔區(qū)分度

6、貢獻(xiàn)大的詞 (在本文中多次出現(xiàn),而在其他文章中出現(xiàn)次數(shù)較少)提取 出來作為特征,對系統(tǒng)進(jìn)行無監(jiān)督分類訓(xùn)練。參考文獻(xiàn)1 svetnikv, liaw a, tong c, et al. random forest: a classification and regression tool for compound classification and qsar model ingj. journal of chemical information and computer sciences, 2003, 43(6):1947-1958.2 張華偉,王明文,甘麗新.基于隨機(jī)森林的文本分類 模型研究j.山東大學(xué)學(xué)報(bào):理學(xué)版,2006,41(3): 139-143.3 張建兵,戴新宇,陳家駿.文檔分類之特征選擇方法 的實(shí)驗(yàn)比較j廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2008, 26(3) : 181-185.4 張海龍,王蓮芝自動(dòng)文本分類特征選擇方法研究 計(jì)算機(jī)工程與設(shè)計(jì),2006, 27 (20): 3838-3841.作者簡介:陳海利(1987-),男,河北省滄州市,同濟(jì) 大學(xué)軟件工程專業(yè),碩士,研究方向:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論