語義文本挖掘算法優(yōu)化研究_第1頁
語義文本挖掘算法優(yōu)化研究_第2頁
語義文本挖掘算法優(yōu)化研究_第3頁
語義文本挖掘算法優(yōu)化研究_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、    語義文本挖掘算法優(yōu)化研究    摘 要:本文介紹了語義文本挖掘的相關(guān)理論及學(xué)術(shù)概念,闡述了文本挖掘過程及貝葉斯算法等概念,針對文本算法“貝葉斯算法”在文本分類領(lǐng)域的應(yīng)用算法進(jìn)行了優(yōu)化并通過對newsgroup文檔集進(jìn)行了實驗而給出了優(yōu)化結(jié)果。探索了對樸素貝葉斯算法的優(yōu)化。關(guān)鍵詞:文本挖掘;貝葉斯算法、特征詞、文本分類、newsgroup文檔集;優(yōu)化doi:10.16640/ki.37-1222/t.2018.07.2221 研究背景伴隨著信息技術(shù)的飛速發(fā)展,在人類的生活中,通信、網(wǎng)絡(luò)和計算機(jī)相關(guān)技術(shù)可以說是已經(jīng)無處不在,大量的“信息”通過電子文本

2、形式存儲,而且數(shù)量急劇增長;新聞、用戶評論、電子郵件等等,這些都是以電子文本的形式存儲在網(wǎng)絡(luò),但是面對如此龐大的信息量,通常人們需要的僅僅只是其中的一小部分,那么如何從海量的電子文本中挖掘出自己感興趣或者說是有價值的信息,這是我們所面臨的嚴(yán)重挑戰(zhàn)。文本玩家技術(shù)就是為處理這類問題而誕生的一種重要的信息處理技術(shù),文本挖掘技術(shù)是從文本中識別有效信息的一個過程。而文本挖掘又包含:文本分類,文本挖掘,文本聚類分析等多個方向。而文本挖掘是指從海量的電子文本數(shù)據(jù)中分離抽取出事先不知,可理解,而最終可用的知識的過程,而運(yùn)用這些知識可以更好的組織信息幫助人們進(jìn)行預(yù)測或判斷以及計劃調(diào)整與優(yōu)化。2 研究現(xiàn)狀文本挖掘

3、在國外的研究開展較早,50年代,h.p.luhn在文本挖掘領(lǐng)域進(jìn)行了開創(chuàng)性的研究,他提出了詞頻統(tǒng)計以及自動分類。眾多學(xué)者在這一領(lǐng)域進(jìn)行了研究工作。而研究的范圍主要有文本挖掘模型、文本特征提取、文本挖掘算法、文本挖掘工具等。我國引入文本挖掘概念并開展中文的文本挖掘只是從最近幾年才開始的。目前我國文本挖掘研究還處于對國外相關(guān)理論和技術(shù)的實驗和論證階段,文本挖掘理論實際應(yīng)用和適合中文的文本挖掘技術(shù)及算法研究都處于初步階段。目前還沒有形成完整的或成體系的適合針對中文信息處理的文本挖掘理論與技術(shù)框架。3 文本挖掘文本挖掘包含三個過程:文本預(yù)處理、特征信息提取以及數(shù)據(jù)挖掘。(1)文本預(yù)處理。文本信息資源最

4、初是各種不同來源的原始數(shù)據(jù)類型,而需要對原始數(shù)據(jù)進(jìn)行過濾和鑒別。根據(jù)數(shù)據(jù)來源的不同幾數(shù)據(jù)類型的特征,可以分為:結(jié)構(gòu)化信息數(shù)據(jù)和非結(jié)構(gòu)化信息數(shù)據(jù)。數(shù)據(jù)過濾需要對不同類型的數(shù)據(jù)提供不同的文本過濾方案。結(jié)構(gòu)化信息需要通過預(yù)處理,將不同形式的文本資源轉(zhuǎn)換成新的相同(或相似)的形式;而對于非結(jié)構(gòu)化穩(wěn)定,則需要通過文本預(yù)處理將非結(jié)構(gòu)化信息文本轉(zhuǎn)化為可以通過算法分析的形式,轉(zhuǎn)化為能夠進(jìn)行特征信息提取的文本格式。(2)特征信息提取。特征信息提取是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成能夠在數(shù)據(jù)庫中存儲的結(jié)構(gòu)化數(shù)據(jù),作為下一步文本挖掘處理的數(shù)據(jù)輸入。特征提取主要是識別出文本中有特點(diǎn)業(yè)務(wù)價值特征的詞。天氣的特征詞多數(shù)是信息文本中表

5、示的概念,而這些概念包含了重要的業(yè)務(wù)信息,因此在做信息提取前就需要根據(jù)實際的業(yè)務(wù)識別出那些信息是需要被提取以及對于的提取策略。(3)數(shù)據(jù)挖掘。通過預(yù)處理幾信息提取后,就可以對文本進(jìn)行挖掘分析了,而常用的挖掘分析技術(shù)有:文本結(jié)構(gòu)分析、文本分類、文本聚類以及文本關(guān)聯(lián)分析、趨勢預(yù)測等等。4 基于文本分類應(yīng)用的貝葉斯算法的優(yōu)化(1)文本分類。文本分類是利用計算機(jī)技術(shù)對文本信息按照特定的業(yè)務(wù)分類體系或標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記。屬于一種分類體系的自動分類,是樸素貝葉斯分類方法。(2)貝葉斯算法優(yōu)化應(yīng)用。貝葉斯算法主要關(guān)注穩(wěn)定類別歸屬的概率。文本的類別歸屬概率=每個分類詞屬于對于類別的概率的綜合表達(dá)式。我們可以

6、用這個詞在對應(yīng)分類文本中出現(xiàn)的次數(shù)來粗略統(tǒng)計,這就體現(xiàn)了詞頻統(tǒng)計的計算成為可行。樸素貝葉斯算法公式有很多。首先要計算分類樣本中每個統(tǒng)計原始的先驗概率,然后需要計算出單個文本對于每個分類的概率,而其中概率值最高的分類才會被作為有效分類被收納。(3)樸素貝葉斯算法對newsgroup文檔集做分類的結(jié)果。1)取newsgroup文檔中所有的特征詞(87554個)通過交叉實驗驗證,可以看到平均的準(zhǔn)確率為0.7819,而需要23分鐘,準(zhǔn)確率的范圍為0.7565-0.8047。2)取newsgroup文檔中詞頻次數(shù)4次以上的特征詞(30095個)通過交叉實現(xiàn)驗證,實驗結(jié)果:評價準(zhǔn)確率為0.7791,而用時

7、為22分鐘,準(zhǔn)確率范圍為0.7551-0.8026。通過比較可以得知,樸素貝葉斯算法在實際的應(yīng)用過程中,詞頻的低的詞并沒有必要去除,因為詞頻低的詞去除后會使分類統(tǒng)計的準(zhǔn)確率下降,但是又沒有明顯的縮短計算周期。通過多次的實驗,通過類條件概率優(yōu)化算法提升貝葉斯算法的分類準(zhǔn)確率:類條件概率p(特征詞|分類)=(分類下特征詞在訓(xùn)練文檔集中出現(xiàn)的次數(shù)總和+0.001)/(分類特征詞總數(shù)+訓(xùn)練文檔集中不重復(fù)特征詞總數(shù)),分子當(dāng)特征詞沒有出現(xiàn)時,只加0.001通過優(yōu)化,可以更為準(zhǔn)確的計算特征詞的分布規(guī)律,平均準(zhǔn)確率由原來的0.7791提升到0.8223,總體的優(yōu)化效果較為明顯。5 結(jié)論在分類方法中,不同分類

8、都有各自不同的優(yōu)缺點(diǎn),而貝葉斯算法是基于概率分類統(tǒng)計的算法,特征詞詞頻越高,則代表該特征詞越具有業(yè)務(wù)價值,而在實際的文本分類應(yīng)用中,還是存在小概率情況的,有些特征詞雖然出現(xiàn)的頻率不高,但可能是更能體現(xiàn)信息類別特點(diǎn),但是這類詞出現(xiàn)的頻率不高,對于這類詞的通過貝葉斯概率計算就可能會被忽略,所以在該算法的應(yīng)用還需要通過更多的優(yōu)化或結(jié)合其他算法進(jìn)行綜合應(yīng)用才能逐漸提高文本分類的實際準(zhǔn)確性。參考文獻(xiàn):1傅京孫.模式識別應(yīng)用m.北京:北京大學(xué)出版社,1990.2魯宋,李曉黎,白碩.文檔中詞語權(quán)重計算方法的改進(jìn)j.中文信息學(xué)報,2000(146):6-13.3張敏,耿煥同,王煦法.一種利用bc方法的關(guān)鍵詞自動提取算法研究j.小型微型計算機(jī)系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論