(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)文本挖掘技術(shù)在短信文本中的應(yīng)用研究.pdf_第1頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)文本挖掘技術(shù)在短信文本中的應(yīng)用研究.pdf_第2頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)文本挖掘技術(shù)在短信文本中的應(yīng)用研究.pdf_第3頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)文本挖掘技術(shù)在短信文本中的應(yīng)用研究.pdf_第4頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)文本挖掘技術(shù)在短信文本中的應(yīng)用研究.pdf_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 摘要 在互聯(lián)網(wǎng)飛速發(fā)展、電子商務(wù)技術(shù)日趨成熟的今天,隨著移動(dòng)終端手機(jī) 的日益普及,手機(jī)短信作為無線數(shù)據(jù)通訊的一個(gè)基本業(yè)務(wù),為人們相互間交流提 供了新的手段,并且受到了手機(jī)用戶的青睞。作為一種新型的廣告宣傳的方式, 手機(jī)短信有很大的潛力和前景,然而在實(shí)際運(yùn)營中仍有不可回避的問題:垃圾短 信。從目前的市場(chǎng)情況來看,手機(jī)短信廣告最需要面對(duì)的就是如何解決擾民問題。 這就需要廣告發(fā)布者采取有效的方法以獲得廣告受眾的相關(guān)信息,從而定向投放 具有針對(duì)性、應(yīng)變性的短信廣告。 為實(shí)現(xiàn)這一目的,我們可以運(yùn)用文本挖掘技術(shù),從海量的電信業(yè)務(wù)數(shù)據(jù)進(jìn)行 分析,在此基礎(chǔ)上有針對(duì)性地投放短信廣告,從而形成廣告投放者、廣告受眾、 電信運(yùn)營商三贏的局面。本文將文本挖掘方法應(yīng)用于電信業(yè)務(wù)數(shù)據(jù)模型上,應(yīng)用 數(shù)據(jù)約簡(jiǎn)技術(shù)以解決數(shù)據(jù)量大的問題,應(yīng)用數(shù)據(jù)除噪技術(shù)以解決數(shù)據(jù)含噪聲的問 題,綜合運(yùn)用多種模式識(shí)別技術(shù)以從電信業(yè)務(wù)數(shù)據(jù)中分析出用戶的興趣點(diǎn)所在、 實(shí)現(xiàn)短信廣告定向投放功能,這些都是本研究的重點(diǎn),也是本研究的創(chuàng)新之處 本文的主要工作包括;( 1 ) 提出了一種針對(duì)短信文本的聚類方法,具有高準(zhǔn) 確度和高效率的特點(diǎn)。( 2 ) 提出了一種預(yù)加窗的中文文本校對(duì)技術(shù),用于文本規(guī) 范和校對(duì),同時(shí)該算法具有較小的計(jì)算復(fù)雜度。( 3 ) 提出了一種自適應(yīng)的重復(fù)特 征選擇技術(shù),該方法能夠最終得到最優(yōu)的低維特征空間,同時(shí)也有效的解決了訓(xùn) 練集含有噪聲訓(xùn)練元素情況下的最優(yōu)特征提取問題。( 4 ) 提出了一種基于關(guān)鍵詞 表的特征權(quán)重調(diào)整技術(shù),進(jìn)一步地突出了短信中的關(guān)鍵詞成分,提高了關(guān)鍵點(diǎn)的 識(shí)別率。 試驗(yàn)表明,本文中提出的方法是有效的,此外本研究還有一定的現(xiàn)實(shí)意義, 對(duì)數(shù)據(jù)挖掘在電信行業(yè)中的應(yīng)用有一定的促進(jìn)作用。 關(guān)鍵詞:短信文本,文本挖掘,預(yù)處理,特征提取 a b s t r a c t i nt h e s ed a y s ,i n t e r a c td e v e l o p sf a s ta n de - c o m l n e r c et e c h n o l o g yh a sb e c o m e m o l ea n dm o l em a t u r e a n dw i t ht h ei n a e a s i n gp o p u l a r i t yo fm o b i l ep h o n e s - m o b i l e t e r m i n a l , s m s ( s h o r tm e s s a g i n gs e r v i c e ) p r o v i d e sn e wt o o l sf o rp e o p l e sm u t u a l e x c h a n g ea sab a s i cw i r e l e s sd a t ac o m m u n i c a t i o n sb u s i n e s s ,a n di ti sa c c e p t e db yt h e m o b i l ep h o n eu s e r so fa l la g e s a san e wt y p eo fa d v e r t i s i n g , m o b i l ep h o n em e s s a g e s h a v eag r e a tp o t e n t i a la n dp r o s p e c t s h o w e v e r , i na c t u a lo p e r a t i o n si tr e m a i n sa l l u n a v o i d a b l ep r o b l e m :g a r b a g em e s s a g e s j u d g i n gf r o mt h ec u r r e n tm a r k e ts i t u a t i o n , s m s a d v e r t i s i n gn e e d st ob ea d d r e s s e di sh o wt os o l v et h em o s td i s t u r b i n gp r o b l e m t h i sr e q u i r e st h a tt h ea d v e r t i s i n gp u b l i s h e r st a k ee f f e ct i v ew a yt oo b t a i nr e l e v a n t i n f o r m a t i o nf r o mt h ea u d i e n c e 。s ot h a tt h e yc a np u tt h es m sr e s p o n s ea d v e r t i s i n g t a r g e t e d l y t oa c h i e v et h i sp u r p o s e ,w ec a nu s et e x tm i n i n gt e c h n o l o g yt oa n a l y s i sm a s s i v e d a t ao ft h et e l e c o m m u n i c a t i o n sb u s i n e s s o nt h i sb a s i sw eg a l lp u tt h es m s r e s p o n s e a d v e r t i s i n gt a r g e t e d l y , t h e r e b yi t 啪e r e a t ens i t u a t i o no fa d v e r t i s i n g , a d v e r t i s i n g a u d i e n c e s ,t e l e c o m m u n i c a t i o n so p e r a t o r s - w i n i nt h i sp a p e r , t e x tm i n i n gm e t h o dh a s b e e na p p l i e dt om o d e ld a t at e l e c o m m u n i c a t i o n sb u s i n e s s , w ea p p l yt h ed a t ar e d u d i o n t e c h n i q u e st o s o l v et h e p r o b l e mo fl a r g e v o l u m ed a t aa n d a p p l y t h ed a t a e l i m i n a t i n g - n o i s et e c h n o l o g yt o s o l v et h en o i s e p r o b l e m m e a n w h i l e , w eu s ea c o m b i n a t i o no f p a t t e r nr e c o g n i t i o nt e c h n i q u e st oa n a l y z e d a t af r o mt h e t e l e c o m m u n i c a t i o n sb u s i n e s s s ot h a tw ec a ng a i nw h a ti st h ec u s t o m e r si n t e r e s ta n d r e a f i z et h ef u n c t i o no fp u t t i n ga d v e r t i s i n gm e s s a g e sd k e c t c d l y t h e s ea r et h ef o c u so f t h i ss t u d y ,a sw e l la st h ei n n o v a t i o no ft h es t u d y t h em a i nw o r k i n c l u d e s :( 1 ) p r e s e n t sat e x tm e s s a g i n gc l u s t e r , w i t hm g ha c c u r a c y a n dh i g he f f i c i e n c yc h a r a c t e r i s t i c s ( 2 ) p r e s e n t saw i n d o wo ft h ec h i n e s ev e r s i o no f p r e c h e c k i n gt e c h n o l o g y ,a n d s t a n d a r d sf o r p r o o f r e a d i n gt e x t m e a n w h i l et h e c o m p u t a t i o n a lc o m p l e x i t yo ft h ea l g o r i t h mi ss m a l l e r ( 3 ) p r e s e n t sa na d a p t i v ef e a t u r e s e l e c t i o nt e c h n o l o g y ,w h i c hc o u l du l t i m a t e l ya c h i e v et h eb e s tl o w - d i m e n s i o n a lf e a t u r e s p a c ea n di sa l s oa ne f f e c t i v es o l u t i o nt ot h en o i s yt r a i n i n ge l e m e n t so ft h et r a i n i n gs e t t h eo p t i m a lf e a t u r ee x t r a c t i o n ( 4 ) p r e s e n t sat e c h n o l o g yb a s e do nt h ek e y w o r d sl i s tt o n a d j u s tf e a t u r ew e i g h t sw h i c hf u r t h e rh i g h l i g h t st h ek e y w o r d si n g r e d i e n t so ft h em e s s a g e a n di m p r o v e st h er e c o g n i t i o nr a t e t h ee x p e r i m e n t ss h o wt h a tt h i sp a p e rp r e s e n t st h em e t h o di se f f e c t i v e i na d d i t i o n , t h es t u d yh a st h ep r a c t i c a ls i g n i f i c a n c es t i l l l a s t l y t h es t u d yi sac e r t a i nr o l eo nt h e a p p l i c a t i o no fd a t am i n i n gi nt h et e l e c o m m u n i c a t i o n si n d u s t r y k e yw o r d s :t e x tm e s s a g i n g , t e x tm i n i n g , p r e p r o c e s s , t e a t u r ee x t r a c t i o n i n 獨(dú)創(chuàng)性聲明 本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研 究成果據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他 人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu) 的學(xué)位或證書而使用過的資料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均 已在論文中作了明確的說明并表示謝意。 簽名:日期:2 0 0 7 年月2 8 日 關(guān)于論文使用授權(quán)的說明 本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有 權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借 閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn) 行查閱,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。 ( 保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定) 簽名: 導(dǎo)師簽名: 日期:2 0 0 7 年月2 8 第一章緒論 1 1 研究背景及意義 第一章緒論 隨著市場(chǎng)經(jīng)濟(jì)的蓬勃發(fā)展和以市場(chǎng)需求為導(dǎo)向的現(xiàn)代營銷戰(zhàn)略的推動(dòng),廣告 業(yè)獲得了極大的發(fā)展,越來越多的企業(yè)開始重視并充分發(fā)揮廣告營銷的作用,宣 傳產(chǎn)品品牌、樹立企業(yè)形象。與此同時(shí),廣告的發(fā)布方式也是日新月異。由于手 機(jī)用戶數(shù)量龐大,短信發(fā)送便捷、成本低廉且有強(qiáng)制閱讀的優(yōu)勢(shì),因此手機(jī)短信 作為一種廣告宣傳的方式具有很大的潛力和前景。 手機(jī)短信廣告具有不可逆的單向傳播性質(zhì),并有著絕對(duì)低成本和無障礙直達(dá) 兩大優(yōu)勢(shì)。然而,盡管手機(jī)短信廣告有著先天優(yōu)勢(shì),在實(shí)際運(yùn)營中仍有不可回避 的問題:濫發(fā)的垃圾短信充斥著手機(jī),造成了用戶的普遍反感。從目前的市場(chǎng)情 況來看,手機(jī)短信廣告最需要面對(duì)的就是如何解決擾民問題。這就需要廣告發(fā)布 者采取有效的方法以獲得廣告受眾的相關(guān)信息,從而定向投放具有針對(duì)性、應(yīng)變 性的短信廣告i l j 。 由于短信文本是一種半結(jié)構(gòu)化的數(shù)據(jù),并且,短信文本中主要包括的是文本 信息,因此本文將文本挖掘的相關(guān)技術(shù)和方法引入到短信文本的處理領(lǐng)域,實(shí)現(xiàn) 對(duì)短信的分類,從而實(shí)現(xiàn)具有針對(duì)性、應(yīng)交性地投放短信廣告的目的。此外,本 文還針對(duì)短信文本本身的特點(diǎn)提出了一些改進(jìn)方法,進(jìn)一步提高了試驗(yàn)效果。 1 2 垃圾短信的危害及當(dāng)前的狀況 1 2 1 垃圾短信的種類 ( 1 ) 垃圾短信的定義 垃圾短信是指批量發(fā)送的內(nèi)容違法或者違規(guī)的短信,或者違背收集用戶主觀 意志接收到的并且客觀上對(duì)用戶造成騷擾的短信。垃圾短信有以下4 個(gè)明顯的特 點(diǎn):1 ,批量發(fā)送;2 ,內(nèi)容違法,違規(guī)或涉及廣告宣傳;3 ,違背用戶主觀意志; 4 ,客觀上造成對(duì)用戶騷擾或其它權(quán)益的侵害1 2 j 。 我國一年的短信息總量約為3 0 多億條【3 l ,其中有不少是垃圾短信,這不僅 電子科技人學(xué)碩士學(xué)位論文 占用了有限的網(wǎng)絡(luò)資源,造成網(wǎng)絡(luò)擁塞,使運(yùn)營商耗費(fèi)更多的資源對(duì)其進(jìn)行處理、 過濾,手機(jī)用戶也要花費(fèi)大量的時(shí)間來處理這些短信,同時(shí)那些以欺詐為目的的 短信可能使很多分辨力差的手機(jī)用戶損失大量的金錢。垃圾短信的經(jīng)濟(jì)成本無疑 是一個(gè)驚人的數(shù)字,已成為一種社會(huì)公害。 ( 2 ) 垃圾短信的分類 從短信的發(fā)送者來區(qū)分,垃圾短信可以被分為四種形式1 4 l : 1 違法短信 違法短信主要是指由不法分子發(fā)出的短信,不法之徒利用手機(jī)短信作案主要 有如下三種形式: ( 1 ) 通過發(fā)送手機(jī)短信進(jìn)行詐騙,騙取、偷盜他人錢財(cái)。 ( 2 ) 利用手機(jī)短信從事制作假證件、假公章、假學(xué)歷、考前出賣試題等違法經(jīng) 營活動(dòng)。 ( 3 ) 通過手機(jī)散布破壞民族團(tuán)結(jié)、影響社會(huì)穩(wěn)定的政治謠言或有害信息,如果 放任有害信息傳播,有可能嚴(yán)重影響到國家安全。 2 短信陷阱 不良服務(wù)提供商制造“短信陷阱”一般通過兩個(gè)渠道:一個(gè)是通過電信運(yùn)營 商的網(wǎng)絡(luò)平臺(tái)向消費(fèi)者發(fā)送“誘惑短信”,用戶一旦回復(fù)短信就被當(dāng)作確認(rèn)定購服 務(wù);另一個(gè)是在互聯(lián)網(wǎng)上設(shè)置“陷阱”,“誘惑”用戶發(fā)回短信確認(rèn)。無論服務(wù)提 供商通過何種途徑,都必須獲得消費(fèi)者的回復(fù)確認(rèn)才可產(chǎn)生費(fèi)用。為什么不良服 務(wù)提供商要千方百計(jì)得到用戶的回復(fù)昵? 原因在于以往運(yùn)營商在三方之中充當(dāng)代 收費(fèi)的角色,服務(wù)提供商需要得到用戶的回復(fù)確認(rèn)與運(yùn)營商進(jìn)行費(fèi)用結(jié)算,于是 一些不良服務(wù)提供商千方百計(jì)設(shè)置“短信陷阱”讓用戶不自覺“回復(fù)”。 3 不良短信 這類短信息一般不構(gòu)成直接的利益侵犯,但卻給接收者帶來了身心的煩躁甚 至傷害此類短信多以整人為主要目的,加之內(nèi)容低俗,格調(diào)低下,招致了不少 用戶的反感,被稱為“精神污染”。當(dāng)前有不少人靠編寫不良短信謀生,更有新浪、 網(wǎng)易這樣的門戶網(wǎng)站以不良短信牟利,更不用說許多利欲熏心的大小服務(wù)提供商 們了。 4 廣告短信 此類短信多為各短信廣告公司,主要具有以下四個(gè)特點(diǎn): 2 第一章緒論 1 覆蓋面廣,據(jù)業(yè)內(nèi)人士稱:只要事先選擇好手機(jī)或小靈通的一個(gè)號(hào)段,把 開始的號(hào)碼和最后一個(gè)號(hào)碼輸入軟件,并輸入相關(guān)軟件群發(fā)即可。 2 費(fèi)用低,目前,市場(chǎng)上通行的短信廣告的服務(wù)價(jià)格為三至四分錢一條,這 意味著,即便是發(fā)送給一百萬人,也只需花費(fèi)三到四萬元甚至更低。 3 “廣告效果”好,由于用戶在閱讀該種短信前無法知曉該短信的內(nèi)容,即 使刪除也是在閱讀了該短信之后,類似被強(qiáng)迫洗腦。 4 具有較強(qiáng)的隱蔽性,相對(duì)于傳統(tǒng)媒體廣告,利用短信發(fā)送的廣告具有較強(qiáng) 的私密性,一般人在收到廣告消息之后多為閱讀后即行刪除,很少和周圍的人分 享。 1 2 2 垃圾短信的危害 垃圾短信的產(chǎn)生和存在很大程度上是由于商業(yè)的原因。不可否認(rèn),使用得當(dāng), 如使用用戶訂閱的方式,短信是相當(dāng)經(jīng)濟(jì)有效的廣告方式,是開拓迅速增長的直 銷市場(chǎng)的有力工具。遺憾的是,很多商家并沒有遵守游戲規(guī)則,采用了狂轟濫炸 的方式,最終導(dǎo)致全民對(duì)垃圾短信行為的批評(píng)和抵制。 在討論這個(gè)問題之前,讓我們看一下為什么很多人都采用短信這種方式。總 結(jié)一下,大致歸于兩點(diǎn)原因:低成本和易于匿名。據(jù)調(diào)查,發(fā)送短信的成本幾乎 為零,只要投資幾百元就可以獲得專門的短信群發(fā)器和所在地的手機(jī)號(hào)碼,每小 時(shí)可以發(fā)送上萬條,而且手機(jī)短信具有強(qiáng)制閱讀性,這樣短信內(nèi)容就可以保證被 注意到。由于低廉的成本,即使只有很少很少的部分得到反饋,就足以支付這些 費(fèi)用了,比起昂貴的其他方式的廣告自然很劃算了。此外,由于短信是由群發(fā)器 發(fā)出的,所以發(fā)送者具有高度的隱蔽性,很不容易被追蹤到。 另外,從整個(gè)通訊資源來看,目前通訊資源還是比較有限。垃圾短信里的信 息幾乎沒有什么價(jià)值,每次發(fā)送成千上萬份這樣的短信,會(huì)占用大量的通訊資源, 嚴(yán)重時(shí)甚至?xí)斐蓳砣?,中斷信息的通訊。這些都是運(yùn)營商和用戶所不愿意看到 的。據(jù)專家統(tǒng)計(jì),消除垃圾短信可以為運(yùn)營商和手機(jī)用戶每年節(jié)省相當(dāng)?shù)某杀尽?其次,從手機(jī)用戶來看,垃圾短信浪費(fèi)了人們的大量時(shí)間。一般人們需要至 少1 0 秒鐘時(shí)間來判斷是否為垃圾短信,如果每天收到幾十份垃圾短信,就的花大 約1 0 分鐘的時(shí)間來處理它們,實(shí)在是比較痛苦的事情。垃圾短信也威脅無線網(wǎng)絡(luò) 的安全,特別是那些個(gè)人用短信群發(fā)器發(fā)送欺騙短信的情況。大量的網(wǎng)絡(luò)資源被 占用,嚴(yán)重時(shí)正常運(yùn)作被迫終止。 電子科技人學(xué)碩十學(xué)t i 7 = 論文 垃圾短信不僅帶來了技術(shù)方面和經(jīng)濟(jì)方面的問題,同時(shí)也帶來了一系列社會(huì) 問題。一些不法分子利用短信傳播一些色情、反動(dòng)、暴力、迷信等不良信息和帶 有欺詐性質(zhì)的內(nèi)容。還有一些宗教政治團(tuán)體的揮之不去的垃圾短信更是引起了人 們的憤概。 最后,正如媒體上報(bào)道的,垃圾短信也嚴(yán)重地?fù)p害了移動(dòng)、聯(lián)通等電信運(yùn)營 商的形象,影響正常業(yè)務(wù)。 1 2 3 我國垃圾短信的當(dāng)前情況 ( 1 ) 當(dāng)前我國垃圾短信泛濫嚴(yán)重 目前我國垃圾短信泛濫,情況極為嚴(yán)重。通過專門的闖卷調(diào)查,我們發(fā)現(xiàn)用 戶每周收到短信的數(shù)量集中在5 條以內(nèi)的占多數(shù),約4 2 7 ;每周收到5 - 1 0 條垃 圾短信的用戶占3 4 9 5 ;受到垃圾短信達(dá)1 0 - 2 0 條的用戶占1 4 1 9 ;另外6 2 5 的用戶每周收到多達(dá)4 0 條以上的垃圾短信。根據(jù)數(shù)據(jù)分析我國的手機(jī)用戶平均每 周收到8 2 9 條垃圾短信。嘞 我國目前擁有手機(jī)用戶超過4 4 3 億,他們是垃圾短信的直接受害者。根據(jù)上 面的數(shù)據(jù)計(jì)算,每個(gè)手機(jī)用戶每周至少需要在垃圾短信上花費(fèi)1 3 8 分鐘。這就意 味著,全國的手機(jī)用戶每年會(huì)浪費(fèi)掉5 3 2 億小時(shí)的寶貴時(shí)間。嘲 ( 2 ) 垃圾短信的特點(diǎn)分祈 通過對(duì)我國當(dāng)前的垃圾短信的分析可知,我國垃圾短信的特點(diǎn)包括一下幾個(gè) 方面: 1 ) 從內(nèi)容上看,國內(nèi)的垃圾短信主要是來自國內(nèi)的產(chǎn)品和服務(wù)的推廣內(nèi)容, 相當(dāng)一部分公司和個(gè)人利用短信這種形式推廣新產(chǎn)品以及特別的服務(wù)等。 2 ) 從來源上看,絕大部分垃圾短信都是來自國內(nèi),國內(nèi)的大部分垃圾郵件來 自予推銷為目的的公司。 3 ) 從發(fā)展趨勢(shì)上看,國內(nèi)垃圾短信問題形式不容樂觀。通過短信來傳達(dá),正 在被越來越多的公司選中,在相關(guān)政策出臺(tái)之前,相信垃圾短信會(huì)更加猖獗 4 ) 手機(jī)病毒正在逐漸蔓延,如果由于病毒而引發(fā)垃圾短信,無論從數(shù)量上還 是危害上,都需要引起足夠的重視。 4 第一章緒論 1 3 本論文的主要研究內(nèi)容及論文的組織 1 3 1 本論文的主要研究內(nèi)容 本文主要是針對(duì)垃圾廣告短信,在基于數(shù)據(jù)挖掘技術(shù)進(jìn)行的短信文本分類研 究,論文根據(jù)短信可轉(zhuǎn)化為文本這一特性,通過對(duì)短信文本相關(guān)特性和相關(guān)技術(shù) 的研究了解,提出了將文本分類算法運(yùn)用到短信處理技術(shù)之中。本論文的研究工 作主要包括一下幾個(gè)方面: 1 1 本文重點(diǎn)研究了在短信預(yù)處理方面將結(jié)構(gòu)化、半結(jié)構(gòu)化的短信轉(zhuǎn)化為結(jié)構(gòu) 化的文本數(shù)據(jù)方法,特別是在整合短信文本時(shí)的新方法。 2 1 在對(duì)短信文本進(jìn)行預(yù)處理的基礎(chǔ)之上,本文提出了一種預(yù)加窗的中文文本 校對(duì)技術(shù),用于文本規(guī)范和校對(duì),同時(shí)該算法具有較小的計(jì)算復(fù)雜度。同時(shí)還提 出了一種自適應(yīng)的重復(fù)特征選擇技術(shù),該方法能夠最終得到最優(yōu)的低維特征空間, 同時(shí)也有效的解決了訓(xùn)練集含有噪聲訓(xùn)練元素情況下的最優(yōu)特征提取問題。本文 還提出了一種基于關(guān)鍵詞表的特征權(quán)重調(diào)整技術(shù),進(jìn)一步地突出了短信中的關(guān)鍵 詞成分,提高了關(guān)鍵點(diǎn)的識(shí)別率。 3 1 最后,構(gòu)建了一個(gè)主要基于內(nèi)容的短信分類系統(tǒng)測(cè)試模型。 1 3 2 論文組織 本論文共分五章,具體安排如下: 第一章是全文緒論。該章介紹了垃圾短信產(chǎn)生的原因、危害以及當(dāng)前的狀況, 進(jìn)而對(duì)短信文本分類進(jìn)行了概要的闡述,包括常用的技術(shù)和方法。最后給出了論 文工作的主要貢獻(xiàn)。 第二章討論了文本挖掘技術(shù)。本章首先對(duì)文本挖掘技術(shù)的定義、過程和挖掘 方法作了敘述,然后分析了短信文本的特征,并簡(jiǎn)要討論了文本挖掘技術(shù)在短信 文本中的應(yīng)用。 第三章對(duì)短信文本的預(yù)處理方法和技術(shù)進(jìn)行了詳細(xì)的論述。首先對(duì)文本的表 示給出了相關(guān)定義,然后對(duì)數(shù)據(jù)預(yù)處理的幾個(gè)主要步驟進(jìn)行了闡述,其包括文本 特征格式分析、中文分詞處理、對(duì)錯(cuò)字和同音異形詞的校對(duì)、去噪預(yù)處理、短信 文本特征選擇研究、基于興趣關(guān)鍵特征詞的權(quán)重調(diào)整技術(shù)、特征規(guī)范化處理以及 一些后期處理工作。 第四章討論了短信的分類技術(shù)。本章首先對(duì)文本分類的過程和分類方法進(jìn)行 5 電子科技大學(xué)碩士學(xué)位論文 敘述,然后對(duì)短信文本的分類方法進(jìn)行了研究。文中提出了分類之前先對(duì)短信進(jìn) 行預(yù)處理整合的思想,大大地提高了分類速度。 第五章主要介紹了短信分類系統(tǒng)s v m c l s 的研究與設(shè)計(jì)。本章結(jié)合前幾章研 究的方法和思想,從實(shí)際應(yīng)用的角度出發(fā),設(shè)計(jì)了一個(gè)短信分類系統(tǒng)模型,并給 出了對(duì)一些關(guān)鍵問題的處理方法和關(guān)鍵算法。 6 第一二章文本挖掘技術(shù) 第二章文本挖掘技術(shù) 文本信息的挖掘就是在對(duì)大量訓(xùn)練樣本處理的基礎(chǔ)上,得到文本數(shù)據(jù)問的內(nèi) 在特征,并以此為依據(jù)對(duì)信息資源中進(jìn)行有目的的信息提取。本文在對(duì)短信文本 的格式進(jìn)行探討,并對(duì)其半結(jié)構(gòu)化的文本格式進(jìn)行預(yù)處理的前提下,將文本挖掘 的主要技術(shù)和方法應(yīng)用到短信的處理中。本章首先對(duì)文本挖掘技術(shù)的定義、過程 和挖掘方法作了敘述,然后分析了短信文本的特證,并簡(jiǎn)要討論了文本挖掘技術(shù) 在短信中的應(yīng)用,其關(guān)鍵技術(shù)問題在后續(xù)章節(jié)中詳細(xì)論述 2 1 文本挖掘 2 1 1 文本挖掘的定義 文本挖掘的定義文本挖掘可以定義為提取散布于文本中新的、合理的、對(duì) 于未來行為有指導(dǎo)意義的知識(shí)的過程,通過組織和運(yùn)用這些知識(shí)可以為未來提供 有價(jià)值的參考信息 文本挖掘不同于數(shù)據(jù)挖掘,數(shù)據(jù)挖掘面對(duì)的是結(jié)構(gòu)化數(shù)據(jù),采用的方法大多 是非常明確的定量方法。其過程包括數(shù)據(jù)取樣、特征提取、模型選擇、問題歸納 和知識(shí)的發(fā)現(xiàn)。而文本挖掘由于它處理的是非結(jié)構(gòu)化的文本,因此,決定它采用 的方法與數(shù)據(jù)挖掘不同。它經(jīng)常使用的方法來自與自然語言理解和文本處理領(lǐng)域, 如文本摘要、文本分類、文本檢索等技術(shù),發(fā)現(xiàn)的知識(shí)往往不是精確的數(shù)據(jù),而 是定性的規(guī)則。對(duì)于中文文本的文本挖掘其難度較大,體現(xiàn)為漢語分詞問題,建 立完整的漢語概念體系的困難和漢語語法、語義和語用分析的困難。1 7 j 文本挖掘可以對(duì)大量文檔集合的內(nèi)容進(jìn)行總結(jié)【8 胴、分類、聚類、關(guān)聯(lián)分析, 以及利用文檔進(jìn)行趨勢(shì)預(yù)測(cè)等。 當(dāng)前,文本分類已成為一個(gè)日益重要的研究領(lǐng)域。隨著文本信息的快速增長, 文本分類顯得越來越重要。由于分類可以在較大程度解決文本信雜亂的現(xiàn)象,方 便用戶準(zhǔn)確地定位所需的信息和分流信息。因此,文本自動(dòng)分類己成為項(xiàng)具有 較大實(shí)用價(jià)值的關(guān)鍵技術(shù),是組織和管理數(shù)據(jù)的有力手段,可被用于抽取符號(hào)知 識(shí)、新聞分發(fā)、排序電子郵件以及學(xué)習(xí)用戶興趣。 7 電子科技大學(xué)碩士學(xué)位論文 文本分類是指按照預(yù)先定義的主題類別,為文檔集合中的每個(gè)文檔確定一個(gè) 類別。這樣,用戶不但能夠方便地瀏覽文檔,而且可以通過限制搜索范圍來使文 檔的查找更為容易。利月文本分類技術(shù)可以對(duì)大量文檔進(jìn)行快速、有效地自動(dòng)分 類。目前,文本分類的算法有很多種,包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集在內(nèi)的 技術(shù)都被用來進(jìn)行分類,不過,比較常用的還是t f - i d f 方法和n a i v e b a v e s 等基 于統(tǒng)計(jì)學(xué)的方法。n w 文本聚類與分類的不同之處在于,聚類沒有預(yù)先定義好的主題類別,它的目 標(biāo)是將文檔集合分成若干個(gè)簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能地大,而 不同簇自j 的相似度盡可能地小。h e a r s t 等人的研究己經(jīng)證明了“聚類假設(shè)”,即與 用戶查詢相關(guān)的文檔通常會(huì)聚類得比較靠近,而遠(yuǎn)離與用戶查詢不相關(guān)的文檔。1 關(guān)聯(lián)分析是指從文檔集合中找出不同詞語之間的關(guān)系。b r i n 提出了一種從大 量文檔中發(fā)現(xiàn)一對(duì)詞語出現(xiàn)模式的算法,并用來在w e b 上尋找作者和書名的出現(xiàn) 模式,從而發(fā)現(xiàn)了數(shù)千本在a m a z o n 網(wǎng)站上找不到的新書籍。耽n g 等人以w e b 上的 電影介紹作為測(cè)試文檔,通過使用o e d 模型從這些半結(jié)構(gòu)化的頁面中抽取詞語項(xiàng), 進(jìn)而得到一些關(guān)于電影名稱、導(dǎo)演、演員、編劇的出現(xiàn)模式?!皁 分布分析與趨勢(shì)預(yù)測(cè)是指通過對(duì)文檔的分析,得到特定數(shù)據(jù)在某個(gè)歷史時(shí)刻 的情況或?qū)淼娜≈第厔?shì)。f e l d m a n 等人使用多種分布模型對(duì)路透社的兩萬多篇新 聞進(jìn)行了挖掘,得到主題、國家、組織、人、股票交易之間的相對(duì)分布,揭示了 一些有趣的趨勢(shì)。w d t h r i c h 等人通過分析w e b 上出版的權(quán)威性經(jīng)濟(jì)文章,對(duì)每天 的股票市場(chǎng)指數(shù)進(jìn)行預(yù)測(cè),取得了良好的效果。“” 2 1 2 文本挖掘的過程 文本數(shù)據(jù)挖掘的一般過程可以用圖2 1 來概括描述“”。首先對(duì)數(shù)據(jù)挖掘的文 本進(jìn)行分詞處理,把文本切成詞條。接著建立挖掘?qū)ο蟮奶卣鞅硎荆纾涸?i n t e r n e t 上的文本數(shù)據(jù)挖掘?qū)ο笸ǔJ且唤Mh t m l 格式的文檔集,這樣的文本挖掘 對(duì)象缺乏象關(guān)系數(shù)據(jù)庫中數(shù)據(jù)的組織規(guī)整性,因此要將這些文檔轉(zhuǎn)換成一種類似 關(guān)系數(shù)據(jù)庫中一記錄的較規(guī)整且能反映文檔內(nèi)容特征的表示,一般采用特征向量。 但在目前所采用的文檔表示方法中,存在一個(gè)共同的不合人意的地方是文檔特征 向量具有驚人的維數(shù),因而特征向量的約簡(jiǎn)處理成為文本挖掘處理過程中必不可 少的一個(gè)環(huán)節(jié)。在完成特征向量維數(shù)的縮減后,便可以利用機(jī)器學(xué)習(xí)的方法提取 面向特定應(yīng)用目的的知識(shí)模式最后對(duì)獲取的知識(shí)模型進(jìn)行質(zhì)量評(píng)價(jià),若評(píng)價(jià)的 8 第一二章文本挖掘技術(shù) 結(jié)果滿足一定的要求,則存儲(chǔ)該知識(shí)模式,否則返回到以l ; 的某個(gè)環(huán)節(jié)分析改進(jìn) 后進(jìn)行新一輪的挖掘工作。 戈葛 2 。1 3 文本挖掘方法 圖2 1 文本挖掘的一般過程 在文本挖掘中,文本的特征表示是挖掘工作的基礎(chǔ),而文本分類和聚類是兩 種最重要、最基本的信息發(fā)現(xiàn)功能。由于在本文中要論述分類方法,所以此處只 簡(jiǎn)單介紹分類。關(guān)于分類的詳細(xì)介紹,我們?cè)诤竺娴恼鹿?jié)洋細(xì)研究。 ( 1 ) 文本的特征表示“叭塒 與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,文檔具有有限的結(jié)構(gòu),或者根本就沒有結(jié)構(gòu)。 不同類型文檔的結(jié)構(gòu)也不致。此外,文檔的內(nèi)容是人類所使用的自然語言,計(jì) 算機(jī)很難處理其語義。文本信息源的這些特殊性使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直 接應(yīng)用于其上。我們需要對(duì)文本進(jìn)行預(yù)處理,抽取代表其特征的元數(shù)據(jù)。這些特 征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。 文本特征指的是關(guān)于文本的元數(shù)據(jù),分為描述性特征,例如文本的名稱、日 期、大小、類型等;以及語義性特征,例如文本的作者、機(jī)構(gòu)、標(biāo)題、內(nèi)容等。 描述性特征易于獲得,而語義性特征則較難得到。w 3 c 近來制定的x m l ,r d f 等規(guī) 范提供了對(duì)w e b 文檔資源進(jìn)行描述的語言和框架。在此基礎(chǔ)上我們可以從半結(jié) 構(gòu)化的w e b 文檔中抽取作者、機(jī)構(gòu)等特征 對(duì)于內(nèi)容這個(gè)難以表示的特征,我們首先要找到一種能夠被計(jì)算機(jī)所處理的 表示方法。矢量空間模型( v e c t o rs p a c em o d e lv s m ) 是近幾年來應(yīng)用較多且效果 較好的方法之一。在該模型中,空間文檔被看作由一組正交詞條所張成的矢量空 間。每個(gè)文檔d 表示其中的一個(gè)規(guī)范化矢量 v ( d ) - “,嵋似) ;輯,m p ) ;,( d ) ) ,其中f f 為詞條項(xiàng),m ( d ) 為在d 中的權(quán) 值??梢詫 中出現(xiàn)的所有單詞作為,也可以要求詞 是d 中出現(xiàn)的所有短語, 從而提高內(nèi)容特征表示的準(zhǔn)確性,m p ) 一般定義為在d 中出現(xiàn)頻率坑似) 的函 9 電子科技大學(xué)碩十學(xué)位論文 數(shù),即m “) l ,( 嘸似”。常用的v 有:布爾函數(shù) f ,。 曷g 囂 ;平方根函數(shù) 妒一拓 );對(duì)數(shù)函數(shù)妒- l o g ( 礦f 似) + 1 ) ;t f i d f 函數(shù)1 ;f ,一坑似) l o g ( 。v ) , 其中為所有文檔的數(shù)目, 為含有詞條t ;文檔數(shù)目。 ( 2 ) 文本分類“7 1 n 町棚 文本分類是一種典型的有監(jiān)督的機(jī)器學(xué)習(xí)問題,一般分為訓(xùn)練和分類兩個(gè)階 段,具體過程如下: 訓(xùn)練階段: ( 1 ) 定義類別集合c - # 。,q ,c 。 ,這些類別可以是層次的,也可以是 并列式的; ( 2 ) 給出訓(xùn)練文檔集合s 一概,毛,j ,每個(gè)訓(xùn)練文檔s 被標(biāo)上所屬的類 別標(biāo)識(shí)a ; ( 3 ) 統(tǒng)計(jì)5 中所有文檔的特征矢j t v ( s ,) ,確定代表c 中每個(gè)類別的特征矢量 y 以) : 分類階段: ( 1 ) 對(duì)于測(cè)試文檔集合t - 協(xié),d i ,d , 中的每個(gè)待分類文檔噍,計(jì)算其特 征矢量y 。) 與每個(gè)v ( c 1 ) 之問的相似度砌l p 。,c ;) ; ( 2 ) 取相似度最大的類別a r g m a x s i m ( c l ,d i ) 作為d i 的類別。 有時(shí)也可以為d 。指定多個(gè)類羽,只要d 。與這些類別之間的相似度超過某個(gè)預(yù) 定的闕值。如果d 。與所有類別的相似度均低于閾值,那么通常將該文檔放在一邊, 由用戶來做最終決定。對(duì)于類別與預(yù)定義類別不匹配的文檔而言,這是合理的, 也是必需的。如果這種情況經(jīng)常發(fā)生,則說明需要修改預(yù)定義類別,然后重新進(jìn) 行上述訓(xùn)練與分類過程。 在計(jì)算s i m ( d 。,q ) 時(shí),有多種方法可以選擇。最簡(jiǎn)單的方法是僅考慮兩個(gè)特征 矢量中包含的詞條的重疊程度,即: s i m ( d , c , ) 一制 其中彈n 似。,c i ) 是v ( d 。) 和v ( c ;) 具有的相同詞條數(shù)目,彈u p 。,c 。) 是v ( d 。) 和 v ( c j ) 具有的所有詞條數(shù)目;最常用的方法是考慮兩個(gè)特征矢量之間的夾角余弦, 即 s 由n ( d t , c , ) - 黼 1 0 第一二章文本挖掘技術(shù) 2 2 文本挖掘技術(shù)在垃圾短信方面的應(yīng)用 2 2 1 短信文本的格式 短信文本通常分為普通文本和多媒體格式文本,后者比前者主要附加了彩鈴 和彩信功能。由于絕大部分垃圾短信都屬于前者,所以這里我們主要討論普通短 信文本的格式。 普通短信文本的結(jié)構(gòu)是相當(dāng)簡(jiǎn)單的了,它含有一系列文本,每一部分有一個(gè) 回車( c r ) 、換行( l f ) 以及內(nèi)容組成。短信由收信人、短信內(nèi)容、發(fā)信人和發(fā)送時(shí) 間四部分組成,其中收件人、發(fā)件人和發(fā)送時(shí)間是必需的,而短信內(nèi)容是可選的。 下面看一個(gè)簡(jiǎn)單的例子: f r o m - 1 3 8 1 1 1 1 1 1 1 1 c o n t e n t :出租旺鋪,門前客流大,適合開奶茶店也可居住用有院一樓南 向正房四全 t o t1 3 8 2 2 2 2 2 2 2 2 發(fā)送時(shí)問:l l :0 2 :2 6 2 0 0 7 0 3 1 8 由上面的介紹可知,短信文本有一定的結(jié)構(gòu),而短信文本的內(nèi)容部分大多是 無結(jié)構(gòu)的文本。文本主要研究內(nèi)容之一就是如何將短信文本這一半結(jié)構(gòu)化文本特 征轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)形式,在轉(zhuǎn)化為數(shù)據(jù)形式后,引入文本挖掘的一些技術(shù)方 法對(duì)其進(jìn)行處理,以便對(duì)其進(jìn)行正確分類。 2 2 2 短信文本的分類過程 本文研究的主要目的就是把短信文本按內(nèi)容的不同進(jìn)行分離,即對(duì)短信文本 進(jìn)行分類?;诙绦盼谋镜陌虢Y(jié)構(gòu)化文本特征,本文采用文本挖掘技術(shù)中的分類 方法對(duì)短信文本進(jìn)行處理。本文設(shè)計(jì)并提出的對(duì)短信文本的挖掘過程主要包括下 面的步驟:首先對(duì)待挖掘的電子郵件文本進(jìn)行分詞處理,把文本切成詞條;接著 建立短信文本的特征表示,由于這樣的文本挖掘?qū)ο笕狈ο耜P(guān)系數(shù)據(jù)庫中數(shù)據(jù)的 組織規(guī)整性,因此需將這些文檔轉(zhuǎn)換成一種類似關(guān)系數(shù)據(jù)庫中記錄的較規(guī)整且能 反映文檔內(nèi)容特征的表示,文本中采用的是特征向量;因?yàn)樘卣飨蛄烤哂畜@人的 維數(shù),因此接下來對(duì)特征向量進(jìn)行約簡(jiǎn)處理:在完成特征向量維數(shù)的縮減后,利 用機(jī)器學(xué)習(xí)的方法提取面向特定應(yīng)用目的的知識(shí)模式:最后對(duì)獲取的知識(shí)模型進(jìn) 1 1 電子科技大學(xué)碩士學(xué)位論文 行質(zhì)量評(píng)價(jià),若評(píng)價(jià)的結(jié)果滿足一定的要求,則存儲(chǔ)該知識(shí)模式,否則返回到以 前的某個(gè)環(huán)節(jié)分析改進(jìn)后,進(jìn)行新一輪的挖掘工作。關(guān)于短信的分類過程中的一 些處理的詳細(xì)介紹,將在本論文的其它章節(jié)介紹。 2 3 本章小結(jié) 本章簡(jiǎn)要介紹了文本挖掘,并著重闡述了文本挖掘的概念、處理過程及其主 要處理方法。同時(shí)對(duì)短信文本的格式進(jìn)行了闡述,提出將文本挖掘技術(shù)引入到短 信文本處理中并給出其簡(jiǎn)單的實(shí)現(xiàn)過程,重點(diǎn)部分將在后續(xù)章節(jié)中闡述。 第二章預(yù)處理技術(shù)研究 第三章預(yù)處理技術(shù)研究 如前所述,短信文本不同于傳統(tǒng)數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),有一定的結(jié)構(gòu),而 其內(nèi)容就沒有結(jié)構(gòu)。若想對(duì)短信文本這種半結(jié)構(gòu)的數(shù)據(jù)施加信息處理技術(shù),必須 對(duì)其進(jìn)行預(yù)處理,將以文本為主的短信文本表示為易于被計(jì)算機(jī)所處理的中間形 式。 本章就短信廣告定向投放技術(shù)中的短信文本預(yù)處理方面工作進(jìn)行了詳細(xì)的論 述。文中首先對(duì)文本格式分析、中文分詞處理、詞性標(biāo)注及無用詞過濾等數(shù)據(jù)預(yù) 處理方法進(jìn)行綜述。然后詳細(xì)介紹了對(duì)錯(cuò)字和同音異形詞的校對(duì)技術(shù),并給出了 結(jié)果與實(shí)驗(yàn)分析;接著介紹了重復(fù)型特征提取技術(shù)原理和算法,同樣給出了相關(guān) 實(shí)驗(yàn)結(jié)果分析;本章還提出了基于興趣關(guān)鍵特征詞表的特征權(quán)重提取技術(shù),最后 還對(duì)特征向量進(jìn)行了規(guī)范化處理。本節(jié)的實(shí)例測(cè)試驗(yàn)證了本文提出的方法的有效 性。 3 1 文本的相關(guān)定義 文檔的表示是文本信息處理的最基本的前期工作例。目前這方面的研究工作 已經(jīng)取得了一定的進(jìn)展。年代末由g e r a r ds a l t o o 等人提出的向量空間模型 ( v e c t o rs p a c em o d e l ,v s m ) f 2 1 1 | z z l ,因其簡(jiǎn)單及有效性,是近幾年來應(yīng)用較多且 效果較好的方法之一正是基于此,本研究中短信文本的表示選用了v s m 模型表 示。其基本定義有: 定義3 1 文本 文本是短信分類系統(tǒng)處理的基本單位。泛指一個(gè)具有相對(duì)獨(dú)立意義的自然語 言片斷( 段落、句子組或句子) ,一般指一篇文章。 定義3 2 項(xiàng) 當(dāng)文本的內(nèi)容被簡(jiǎn)單地看成是它含有的基本語言單位( 字、詞、詞組或短語等) 所組成的集合時(shí),這些基本的語言單位統(tǒng)稱為項(xiàng),也就是說文本d 可以用項(xiàng)集來 ( t e r m l i s t ) 來表示,囝a d f f , ,瓦,l ) ,其中五是項(xiàng),1 k 珂。本文中,在不引起 混淆的情況下,將使用。詞”代替“項(xiàng)”這個(gè)術(shù)語。 定義3 3 詞的權(quán)重 電子科技人學(xué)碩士學(xué)位論文 對(duì)于含有廳個(gè)詞的文本d ( 正,r 2 ,l ) ,詞瓦常常被賦予一定的權(quán)重 ( 1 七撐) ,表示他們?cè)谖谋局械闹匾潭?,即d 佤,w ;瓦,;l ,睨) 。有時(shí) 在特征詞條確定時(shí),常簡(jiǎn)記為d d ( | k ,睨) 。 定義3 4 向量空間模型( v i c t o rs p a e 虻m o d e l ,v s m ) 給定一文本d - d 佤,;瓦,;瓦,睨) ,由于瓦在文本中既可以重復(fù)出現(xiàn)又 應(yīng)該有先后次序的關(guān)系,分析起來仍有一定的難度。為了簡(jiǎn)化分析,可以暫不考 慮瓦在文本中的先后順序并要求瓦互異( 即沒有重復(fù)) 。這時(shí)可以把正,疋,l 看成 是一個(gè)彈維的坐標(biāo)系,而暇,嘸為相應(yīng)的坐標(biāo)值,因而d ( 暇,w 2 ,睨) 被看 成是廳維空蜘中的一個(gè)向量。我們稱d ( 形,職) 為文本d 的向量表示。 定義3 5 文本特征向量( f e a t u r ev e c t o r ) 在v s m 模型中,每一個(gè)文檔都可以用一個(gè)向量來表示,向量的元素是由項(xiàng)( 詞 條) 及權(quán)重組成,該向量稱之為文本的特征向量。特征向量是文檔的一個(gè)特征表示, 在某種意義上可以完全代表文檔的特性。 在v s m 中,每一篇文檔都被映射成多維向量空甸中的一個(gè)點(diǎn),對(duì)于所有的文 檔類和未知文檔,都可用此空間中的向量瓴,暇;疋,;l ,睨) 來表示( 其中正為 詞,彬?yàn)樵~對(duì)應(yīng)的權(quán)值,用以刻畫該詞在描述此文檔時(shí)的重要程度) ,從而將文檔 信息的表示和匹配問題轉(zhuǎn)化為向量空間中向量的表示和匹配問題來處理 v s m 模型的不足之處在于它將文本表示成向量,作為向量空間的一個(gè)點(diǎn),然 后通過計(jì)算向量間的距離決定向量類別的歸屬時(shí),一般不考慮向量中各個(gè)特征間 的關(guān)系。這使得距離的計(jì)算不夠準(zhǔn)確,從而導(dǎo)致分類精度不夠高。該問題會(huì)在后 文中不斷改善 3 2 文本預(yù)處理 為了將短信文本內(nèi)容表示成規(guī)范化的、易于為計(jì)算機(jī)所處理的數(shù)據(jù),首先需 要進(jìn)行數(shù)據(jù)預(yù)處理,其主要步驟包括:文本特征格式分析及規(guī)范化、中文分詞處 理、中文文本校對(duì)、預(yù)處理去噪以及一些后期處理工作 3 2 1 文本特征格式分析及規(guī)范化 分析文本格式可以有效地確定反映主體特征的文本區(qū)域,綜合考慮詞條權(quán)重, 有助于特征詞的高效抽取。嘲 對(duì)于普通文本而言,文本特征格式主要體現(xiàn)在文本的篇章段落構(gòu)成形式上。 1 4 第二章預(yù)處理技術(shù)研究 其中,文本標(biāo)題是判斷文本表達(dá)主題思想的一個(gè)特別值得重視的區(qū)域,標(biāo)題很好 地概括和總結(jié)了整篇文本內(nèi)容;文本起始區(qū)域與終止區(qū)域也是與文本主題密切相 關(guān)的,文本起始部分往往開宗明義,提出所要討論的主題,而文本結(jié)束部分是對(duì) 文本主題的再次強(qiáng)調(diào)。b a x e n d a l e p e 進(jìn)行過統(tǒng)計(jì),反映主題的句子8 5 出現(xiàn)在首段, 7 出現(xiàn)在尾段。洲 于普通文本不同,短信文本是一種半結(jié)構(gòu)化的數(shù)據(jù)。短信包含了f r o m 、t o 、 s u b j e c t 和d a t e 。一般對(duì)文檔的分類比較有幫助的主要是f o r m 域,d a t e 域和b o d y 域,我們可以把注意力主要用于這三部分。 如果忽視了這些信息,將所有的內(nèi)容都同等對(duì)待,那么在向量空間模型中, 那些決策特征的決策作用將會(huì)被眾多非決策特征的影響所淹沒掉。所以,本研究 在設(shè)計(jì)中充分地利用了短信文本的格式信息,較好地提高了文本挖掘的性能。 文本規(guī)范過程主要清除所有的干擾字符和替換一些變異詞。這里的干擾字符 包括諸如標(biāo)點(diǎn)、特殊字符等,比如“,因?yàn)檫@些字符對(duì)于文本特征提取來說沒 有什么實(shí)際意義,而且還會(huì)造成對(duì)分類的干擾。所以在分詞前,對(duì)短信文本進(jìn)行 檢查,去除奇異符號(hào)例如:“我一好想;) 回家! l ! ”,將所有的非法字符 去掉,得到“我好想回家” 同時(shí)對(duì)于短信中的變異詞,如劃夫妻) ,g f ( 女朋友) 等,我們采用變異詞 表的方式進(jìn)行處理。在每次分詞處理后我們通過把分詞過程所得詞與變異詞表中 備詞進(jìn)行比較,如果該詞在變異詞表中,則用變異詞表中相應(yīng)正規(guī)詞替換變異詞。 變異詞表如下: 變異詞正規(guī)詞 g f女朋友 大蝦犬俠 g g 哥哥 3 2 2 中文分詞處理 眾所周知,漢語的書寫以漢字為基本單位,詞與詞之間沒有明顯的界限,要 進(jìn)行漢語的計(jì)算機(jī)處理,必須進(jìn)行分詞處理。分詞是中文信息處理的核心和漢語 自然語言理解的基礎(chǔ),很大程度上影響了中文處理系統(tǒng)的性能。目前主要有基于 詞典的分詞算法和無詞典的分詞方法兩種。 電子科技大學(xué)碩士學(xué)位論文 3 2 2 1 基于詞典分詞方法 基于詞典方法的基本思想是:首先建立一個(gè)包含所有可能出現(xiàn)詞的詞庫。然 后對(duì)給定的待分詞的漢字串s ,按照某種確定的算法切取s 的子串。若該子串與詞 庫中的某詞條相匹配,則該子串是詞,繼續(xù)分割剩余的部分,直到剩余部分為空; 否則,該子串不是詞,轉(zhuǎn)上重新切取s 的子串進(jìn)行匹配瞄1 1 2 6 1 。其主要包括以下方 法: 1 ) 最大匹配法( m a x i m u mm a t c h i n gm e t h o d 。m m ) :選取包含6 - 8 個(gè)漢字的 符號(hào)串作為最大符號(hào)串,把最大符號(hào)串與詞典中的單詞條目相匹配,如果不能匹 配。就削掉一個(gè)漢字繼續(xù)匹配,直到在詞典中找到相應(yīng)的單詞為止。匹配的方向 是從右向左。 2 ) 逆向最大匹配法( r e v e r s em a x i m u mm e t h o d ,r m m ) ;匹配方向與m m 法 相反,是從左向右。實(shí)驗(yàn)表明:對(duì)于漢語來說,逆向最大匹配法比最大匹配法更 有效。 雙向匹配法( b i d i r e c t i o nm a t c h i n gm e t h

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論