版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、孝南猩N及亨xjjfwjxSouthChinaUniversityofTechnology華南理工大學(xué)信息檢索與web挖掘項(xiàng)目計(jì)劃文檔題目:基于模糊識(shí)別的垃圾郵件檢測(cè)與識(shí)別方法學(xué)院計(jì)算機(jī)科學(xué)與工程專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)(全英創(chuàng)新班)學(xué)生姓名黃煒杰、黃健文、林力挺、柳雨新學(xué)生學(xué)號(hào)學(xué)1230590051、201236590048201230590082、201236590130指導(dǎo)教師董守斌課程編號(hào)S0812057課程學(xué)分2_>起始日期2016年4月30日項(xiàng)目簡(jiǎn)介【項(xiàng)目名稱】基于模糊識(shí)別的垃圾郵件檢測(cè)與識(shí)別方法【項(xiàng)目類型】研究和設(shè)計(jì)算法【工作目標(biāo)】建立一個(gè)垃圾郵件檢測(cè)與識(shí)別系統(tǒng),提高其在對(duì)抗環(huán)
2、境下垃圾郵件識(shí)別的準(zhǔn)確率,其中對(duì)抗環(huán)境在這個(gè)情境下指的是,垃圾郵件制造者有意在垃圾郵件中通過增刪改等方式使得郵件逃避系統(tǒng)的檢測(cè)。我們的主要目標(biāo)在于提出一種魯棒的垃圾詞模糊識(shí)別方法,使得系統(tǒng)在有垃圾郵件制造者惡意攻擊的情況下依然能夠識(shí)別出垃圾郵件。同時(shí)提出魯棒的特征選擇方式,提高垃圾郵件制造者對(duì)郵件檢測(cè)系統(tǒng)攻擊的代價(jià),也就是指垃圾郵件制造者需要對(duì)垃圾郵件做出更多的修改才能蒙騙檢測(cè)系統(tǒng)?!緦?shí)驗(yàn)環(huán)境】操作系統(tǒng):window10(64bit)編譯器:Visualstudio2013&MatlabR2012b編程語(yǔ)言:C/C+&Matlab數(shù)據(jù)集:Trec07P工作內(nèi)容整個(gè)項(xiàng)目的流程可以
3、概括如下:數(shù)據(jù)集獲取|工向量空間表示特征選擇模型訓(xùn)練詞典獲取圖1.項(xiàng)目流程圖(1)數(shù)據(jù)集獲?。豪畔z測(cè)是有監(jiān)督學(xué)習(xí)方法,數(shù)據(jù)集不僅應(yīng)該包含文本內(nèi)容,還應(yīng)該包含相應(yīng)的類別標(biāo)簽。爬蟲方法可以爬到網(wǎng)頁(yè)內(nèi)容,但是網(wǎng)頁(yè)不可能把自己標(biāo)記為垃圾網(wǎng)頁(yè),而目前暫時(shí)沒有多少垃圾網(wǎng)頁(yè)制造者會(huì)像對(duì)抗環(huán)境下垃圾郵件制造者那樣惡意修改文本,所以我們只針對(duì)郵件情況做研究(當(dāng)然訓(xùn)練出來的模型,去掉模糊識(shí)別部分即可用于垃圾網(wǎng)頁(yè)檢測(cè))。而郵件信息不可能通過爬蟲獲取,所以我們只能采取TREC上面最新的數(shù)據(jù)集Trec07p。這個(gè)數(shù)據(jù)集比較老,只有少部分郵件經(jīng)過惡意的修改,所以我們需要對(duì)郵件進(jìn)行人工的惡意修改以模擬對(duì)抗環(huán)境下的數(shù)據(jù)
4、集。(2)詞典獲取:在向量空間表示中,每個(gè)詞代表一個(gè)特征,而得到相應(yīng)的特征詞,需要以下幾個(gè)詞典:停用詞典、詞庫(kù)詞典、特征詞典。止匕外,還需要垃圾詞詞典進(jìn)行模糊識(shí)別。這些詞典通過TD、DF等計(jì)算得到。文本預(yù)處理,例如去停用詞、詞干提取等步驟都在這一部分完成。(3)向量空間表示:通過精確匹配從而得到一封郵件的向量空間表示,此外還需要根據(jù)垃圾詞典進(jìn)行模糊識(shí)別,修改向量空間。這一步的主要任務(wù)是對(duì)郵件進(jìn)行模糊識(shí)別,提高垃圾詞的檢測(cè)率。特征選擇:在得到數(shù)據(jù)集的向量空間表示之后,可通過特征選擇算法對(duì)特征詞進(jìn)行進(jìn)一步的篩選,選出既具有判別能力,又不冗余的特征。(5)模型訓(xùn)練:這一步在于選擇合適的分類器對(duì)郵件數(shù)
5、據(jù)集進(jìn)行分類,既要考慮到數(shù)據(jù)集的維度,又要考慮到文本分類的特殊性。研究意義隨著信息化時(shí)代發(fā)展,電子郵件已經(jīng)成為人們交流溝通的重要渠道,而與此同時(shí)很多垃圾郵件制造者為了達(dá)到各種商業(yè)目的向用戶發(fā)送了大量的廣告垃圾郵件,給用戶增加了很多麻煩。后來為了解決這個(gè)問題,垃圾郵件檢測(cè)系統(tǒng)誕生了,并且對(duì)垃圾郵件有很好的攔截效果??墒堑栏咭怀?,魔高一丈,打開我們的郵箱都能發(fā)現(xiàn)有形如以下的垃圾郵件成功地進(jìn)入了我們的收件箱:kIJ<做鼓二XI票>sPns啟oQsmGrad聯(lián)系人:林經(jīng)理bCoOWBkLqPCir電話qqzhQpNhZGQQ:9858OSfTGvAwi圖2.對(duì)抗環(huán)
6、境下垃圾郵件示例為什么這些垃圾郵件有時(shí)不會(huì)被過濾掉呢,通過觀察可以發(fā)現(xiàn)發(fā)送者在做賬和發(fā)票之間都插入了各種奇怪的符號(hào),使得機(jī)器不能認(rèn)得出這些詞,而對(duì)于我們?nèi)搜蹃碚f卻可以一眼獲取其中的信息。這就是所謂的對(duì)抗環(huán)境下的垃圾郵件過濾問題,傳統(tǒng)的垃圾郵件檢測(cè)識(shí)別方法并不能有效應(yīng)付這種情況,而這種情況在現(xiàn)在已經(jīng)很普遍。所以我們旨在研究魯棒的垃圾郵件檢測(cè)方法,提高垃圾郵件的識(shí)別率。E,in相關(guān)的工作及參考文獻(xiàn)垃圾郵件過濾技術(shù)已經(jīng)是一個(gè)很“古老”的技術(shù)了,幾十年前已經(jīng)有相當(dāng)多優(yōu)秀的算法??墒沁@些算法并不是完美的,總有各種漏洞可以攻擊,例如IP偽造、好詞攻擊、垃圾詞攻擊等。針對(duì)IP攻擊已經(jīng)有很多黑名單、信譽(yù)度等技
7、術(shù)可以應(yīng)付,而對(duì)于好詞攻擊也有相當(dāng)多優(yōu)秀算法可以解決1,2,然而對(duì)于垃圾詞攻擊3,4,5 關(guān)的技術(shù)仍是不夠成熟。有的學(xué)者通過正則表達(dá)式等方法4來還原被模糊掉的單詞,但是這類方法維護(hù)成本高,需要很多被模糊的案例來學(xué)習(xí)還原規(guī)則,對(duì)于新的模糊方式?jīng)]有檢測(cè)能力,沒有很好的魯棒性。比較成功的算法之一是HonglakLeeAndrewY.Ng等人提出的用隱馬爾可夫模型6來還原被模糊的單詞。通過隱馬爾科夫狀態(tài)轉(zhuǎn)換詞典樹,通過狀態(tài)轉(zhuǎn)換找到最可能的原單詞。而FarhanaAleen和KuhaMahalingam等7提出通過計(jì)算單詞之間的編輯距離來找到最相似單詞,這種算法被證明有效,但是識(shí)別效果仍有待提高。也有研
8、究學(xué)者將生物領(lǐng)域中的不精確匹配算法8用于垃圾郵件檢測(cè)問題中。參考文獻(xiàn)1 LowdD,MeekC.GoodwordattacksonstatisticalspamfiltersA.Proceedingsofthsecondconferenceonemailandanti-spam(CEAS)C.2005:125-1322 ChanPPK,ZhangF,NgWWY,etal.AnoveldefendagainstgoodwordattacksAMachineLearningandCybernetics(ICMLC)C.2011InternationalConferenceon.IEE2011,3:
9、1088-10923趙利.基于中文主題變形的垃圾郵件過濾方法研究D.武漢:武漢郵電科學(xué)研究院,20094 FongM.SpamorHamJ.ComS572-IntroductiontoArtificialIntelligenceProject,20085 LowdD,MeekC.AdversariallearningA.ProceedingsoftheeleventhACMSIGKDinternationalconferenceonKnowledgediscoveryindataminingC.ACM,2005:641-6476 LeeH,NgAY.Spamdeobfuscationusing
10、ahiddenmarkovmodelA.ProceedingsotheSecondConferenceonEmailandAnti-SpamC.20057 AleenF,MahalingamK.ImprovingBayesianSpamFiltersUsingStringEditDistanceAlgorithmJ.InternationalConferenceonInternetComputing,20088 SculleyD,WachmanGM,BrodleyCE.Spamfilteringusinginexactstringmatchingexplicitfeaturespacewith
11、on-linelinearclassifiersA.TheFifteenthTextREtrievalConference(TREC2006)ProceedingsC.2006基本技術(shù)路線和進(jìn)度計(jì)劃【技術(shù)路線】本項(xiàng)目主要技術(shù)要素:文本預(yù)處理此部分主要包括詞素切分、通用詞去除、詞干提取三部分。本文主要處理英文文本,英文文本有天然的空格作為分隔符,所以本文通過空格和標(biāo)點(diǎn)符號(hào)進(jìn)行詞素分隔;而停用詞詞典則直接采用網(wǎng)上停用詞詞庫(kù),包括各種副詞、連詞等無意義的單詞;題干提取部分主要用于去除單詞的復(fù)雜表現(xiàn)形式,如復(fù)數(shù)變單數(shù)等。預(yù)處理部分在課上都有講,都是簡(jiǎn)單的問題,可通過編碼直接解決。詞典獲取這部分主要用于
12、獲取三個(gè)詞典:詞庫(kù)詞典、特征詞典、垃圾詞典。首先統(tǒng)計(jì)每個(gè)單詞的TF和DF,把所有DF大于閾值的單詞都納入到詞庫(kù)詞典,詞庫(kù)詞典包含所有合法單詞;通過計(jì)算單詞的TF-IDF,從而通過信息增益、卡方分布、互信息等信息嫡方法對(duì)特征詞進(jìn)行選擇,選出具有區(qū)分能力的單詞;通過TF-IDF選出一些經(jīng)常在垃圾郵件而很少在合法郵件中出現(xiàn)的單詞作為垃圾詞,用于之后的模糊識(shí)別。模糊識(shí)別現(xiàn)有的模糊識(shí)別方法中比較常用的是編輯距離(edit-distance)、n-gram以及隱馬爾科夫模型,我們主要從這三種算法入手,研究其可改進(jìn)之處,提出改進(jìn)算法或者新算法用于對(duì)單詞進(jìn)行模糊識(shí)別。文本的向量表示當(dāng)中,采用頻數(shù)作為單詞的向量
13、值,模糊識(shí)別中把識(shí)別到的單詞按照相似度累加到原特征向量當(dāng)中。特征選擇通過前面提到的信息增益、卡方分布、互信息等信息嫡方法選擇出來的特征詞比較有區(qū)分能力,但是他們之間可能存在一定的冗余度,通過啟發(fā)式算法對(duì)特征詞典進(jìn)行精簡(jiǎn)有利于提高識(shí)別準(zhǔn)確率。止匕外,如果最具判別力的那部分單詞有冗余副本的話,可能有利于降低該詞的權(quán)值,也有可能為垃圾郵件制造者提供便利,至于是哪種情況有待于實(shí)踐證明。通過實(shí)驗(yàn)可以提出相應(yīng)的對(duì)策以提高檢測(cè)系統(tǒng)的魯棒性。模型訓(xùn)練這部分有較多的選擇,例如KNN、DT、SVM等,但是并不是所有分類器都適用于文本分類,其中比較常用的是NaiveBayes,本文也采用此分類算法?!具M(jìn)度計(jì)劃】2016.05.01-2016.05.07:數(shù)據(jù)集采集與分析、人工模糊化單詞2016.05.08-2016.05.14:制定系統(tǒng)體系結(jié)構(gòu),編程環(huán)境搭建,編寫文本預(yù)處理部分,完成文本獲取部分編碼。2016.05.15-2016.05.21:完成去停用詞、詞干提取、TF/DF統(tǒng)計(jì)、特征選詞、特征/垃圾詞典生成等部分編碼。2016.05.22-2016.05.28:研究、改進(jìn)模糊識(shí)別算法,并將其實(shí)現(xiàn)于系統(tǒng)當(dāng)中。2016.05.29-2016.06.02:研究、改進(jìn)魯棒性的特征選擇算法,并驗(yàn)證其有效性。2016.06.03-2016.0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 減水劑代理合同模板
- 學(xué)校建房合同范例
- 2024年技術(shù)專利股權(quán)許可協(xié)議
- 住宅設(shè)計(jì)咨詢合同范例
- 家具售賣合同范例
- 中國(guó)一汽合同范例
- 勞動(dòng)合同范例江鈴
- 入股項(xiàng)目分紅合同范例
- 工程鋼材購(gòu)銷合同模板
- 工人入廠合同范例
- 子宮異常出血的護(hù)理
- 高考英語(yǔ)單詞3500記憶短文40篇
- 《耳穴療法治療失眠》課件
- 詢盤分析及回復(fù)
- 氯化工藝安全培訓(xùn)課件
- 指導(dǎo)巡察工作精細(xì)科學(xué)
- 企業(yè)法律知識(shí)培訓(xùn)消費(fèi)者權(quán)益保護(hù)實(shí)務(wù)
- 快樂讀書吧-讀后分享課:《十萬(wàn)個(gè)為什么》教學(xué)案列
- 2024年 貴州茅臺(tái)酒股份有限公司招聘筆試參考題庫(kù)含答案解析
- 河上建壩糾紛可行性方案
- 第五單元學(xué)雷鋒在行動(dòng)(教案)全國(guó)通用五年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)
評(píng)論
0/150
提交評(píng)論