論-一種新的微博短文本特征詞選擇算法_第1頁
論-一種新的微博短文本特征詞選擇算法_第2頁
論-一種新的微博短文本特征詞選擇算法_第3頁
論-一種新的微博短文本特征詞選擇算法_第4頁
論-一種新的微博短文本特征詞選擇算法_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 計(jì)算 機(jī)工 程 與科 學(xué) , ( ) 值受詞 性 因 子影 響 最 大, 詞 長次 之 , 最 ?。?, 且 每個 系數(shù)在 ( , ) 之 間取 值 。為確定 一個 最 佳 組合 系數(shù) , 本文 針對 六 種 可 能 的取 值 情 況 ( 精 度 為 ) 對微 博 短 文本 分 類 語 料集 多次 實(shí) 驗(yàn) , 測 試 微 博短 文本 分類 的平均 準(zhǔn) 確率 。實(shí)驗(yàn) 結(jié)果 表 明 , 當(dāng) ( , , )一 ( , , )時 , 平 均 準(zhǔn)確率 取得 最 大 值, 即 , 因此 , 取 分別取 、 、 。 結(jié) 束 語 本文首先基 于詞性組合 匹配 規(guī)則選 取微博短 文 本 的特征詞 , 以提高微

2、 博短 文 本特征 詞 的語 義表 達(dá) 能力; 其次根 據(jù)詞 項(xiàng) 的 、 詞性 與詞 長 等 因子 構(gòu)造 綜合評估 函數(shù)估量詞 項(xiàng)對微博短文 本 內(nèi)容 主題 表示的貢獻(xiàn)度 , 進(jìn) 而對微 博短文本 進(jìn)行特 征詞選擇 ; 然后 , 從語 義 的角度理解 微博短文本 特征 , 結(jié)合 詞項(xiàng) 將本文的新算法 與單 獨(dú)基 于詞項(xiàng) 的 、 詞長 、 詞性 等 因子 的特 征詞選 擇算法進(jìn) 行 比較 , 觀測各個特 征詞選 擇算法與分類算 法相結(jié) 合時對微 博短文本分類 的效 果 。由于新算 法綜合考 慮 了詞 項(xiàng) 的 、 詞性 與詞長等 因子共 同度量詞 項(xiàng)對微博 短文本 內(nèi)容 主題 表達(dá) 所起 的作 用

3、 , 避 免 了僅基 于 詞 項(xiàng)某一方 面因素 的 片面性 ; 以詞 性組 合 匹配 規(guī)則 選 取文本 的特征詞 , 提高 了微博 短 文本 特征 詞 的語 義 表達(dá)能力 ; 從語 義 角度 來衡 量詞 項(xiàng)與 微博 短 文本 內(nèi) 與文本 內(nèi)容 的語 義 相關(guān) 度 , 最 終完 成對 微博 短 文本 特征詞 的選取 功能 ; 最后 與樸 素 貝葉斯 分 類算 法結(jié) 合使用 , 對微博短 文本 進(jìn)行分類 。實(shí)驗(yàn)結(jié) 果表 明 , 與 基于詞項(xiàng) 的 、 詞性 與詞長等 因子選取 特征詞 的算法相 比 , 該 算法 有效 地提 高 了微博 短 文本 分 類 的準(zhǔn)確率 , 從 而驗(yàn) 證了該算法 的優(yōu)越性

4、。 參 考文獻(xiàn) : , , , , , ( ): ( ) 容 的語 義相關(guān)度 , 充分 考慮 了詞 項(xiàng) 與文本 內(nèi)容在 語 義上 的密切相 關(guān)度 。因此 , 新 算 法可 更好 地 提高 微 博短文本分 類的準(zhǔn)確率 , 改 善分類 的效果 。 這一點(diǎn)可 以從如 圖 和圖 所 示 的數(shù)據(jù) 中得到 驗(yàn)證 : 結(jié)合分 類算法對微博 短文本進(jìn)行 分類 時 , 新算 法與基 于詞 項(xiàng) 的 、 詞性 與詞長 等因子 的特征 , , ( ) : ( ) 詞選 擇算法相 比, 在各 個微 博數(shù) 據(jù) 類別 對應(yīng) 的準(zhǔn)確 率與 召 回率上 均得 到 了提高 , 且 平 均值 分別 保 持在 與 左 右 。新算法有效 地提高 了微博 ( ) 一 : 一 一 ( ) : , ( ) 短 文本分類 的準(zhǔn)確率 , 證 明 了該 算 法選 取 出 的特征 詞可 更準(zhǔn)確地表示微博 文本 內(nèi)容主題 。 : 薄 稷 , ( ) : , , ( ) : ( ) 一 算法 。 日 一基于詞長的算法 基于詞性的算法 卜新 的算法 , , , ( ), : 圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論