設(shè)計基于SVM文本分類器_第1頁
設(shè)計基于SVM文本分類器_第2頁
設(shè)計基于SVM文本分類器_第3頁
設(shè)計基于SVM文本分類器_第4頁
設(shè)計基于SVM文本分類器_第5頁
免費預(yù)覽已結(jié)束,剩余30頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于SVM互聯(lián)網(wǎng)的飛速發(fā)展使得人們對信息的速度和規(guī)模達到史無前例文本分類技術(shù)是數(shù)據(jù)挖掘領(lǐng)域中的一項非常重要的任務(wù),它能夠幫助用戶從SVM了。:文本分類,SVM算法,統(tǒng)計學(xué)習(xí)理論,分類DesignoftextclassifierbasedonTherapiddevelopmentoftheInternetmakespeopleofinformationcollection,disseminationspeedandscalereachedunprecedentedlevels,toachievetheglobalinformationsharingandinteraction.However,italsobringsmanysideeffects,suchasmassiveinformationsometimesmakepeoplefeelatlooseends,howtointheshortestpossibletimegettousersthemostusefulinformationhas ethehotspotofcurrentresearch.Textclassificationtechnologyofdatamininginthefieldofaveryimportanttask,itcanhelpusersfromthenumerousandcomplicatedinformationquicklyandccuraypositioningtheneededinformation.Thispaperwithtextclassifierfortheoverallmodel,mainlyincludingtextpreprocessing,featureselection,featurevectorextraction,classifiertrainingandtestandevaluationoftheclassificationperformance.Focusonfeatureselection,featurevectorextraction,textclassificationalgorithm.Secondly,themaincontentofstatisticallearningtheory,thebasicprincipleofSVMalgorithmanditsadvantages,andthecorefunctionsandotherhotissuesare識工程技術(shù)的方法;801.2.2國內(nèi)對于文本分類的研究起步較晚。1980年,候漢清教授從計算機管理分朱蘭娟等教授對基于詞典法的分類系統(tǒng)進行了研究鄧要武等教授對基于系n-gram19901998Joachims(SVM),SVM的發(fā)展現(xiàn)出現(xiàn)貝葉斯理論稀近理論等對于支持向量機模型的性能完善有了很大幫助算法、One-classSVMRSVMWSVMLSSVM文本組織本主要對基于SVM的文本分類系統(tǒng)中的特征選擇和特征向量提取進行第二章支持向量機的發(fā)展應(yīng)用以及整個的組織結(jié)構(gòu)文本分類文本分類預(yù)處理(預(yù)處理(去停用文本分類訓(xùn)練過 文本分類測試過2.1文本的預(yù)到結(jié)構(gòu)作用而沒有什么實際含義。比如the、a、an、that、those幫助描述名詞的限定詞,over、under、above、in、on排序,詞頻(termfrequency,TF),是指給定單詞在該文件中出現(xiàn)的次數(shù),使用出現(xiàn)頻率較高的NNBFS和模式串T,利用計數(shù)指針ij前字符位置。從主串Sn1;1。這種方法易操作、直觀、簡單,每次只處理一個單詞占用空間小且穩(wěn)定但其消耗的時間與集合的大小成正比,2,樹的每個節(jié)點不是包含一個或幾個關(guān)鍵字,而是含有組成關(guān)鍵字的符號。詞頻統(tǒng)計時,對集合中的每個各個詞的相關(guān)信息。此方法的分為兩部分:樹的構(gòu)造算法和詞頻統(tǒng)計算法文本的特征表對模型和向量空間模型這兩種特征表示的方法做一簡單介紹。(Boolean)模型是基于集合論和代數(shù)的一種比較簡單的文本表示1,0。缺點是對于一篇待分類的樣本,只有相關(guān)和不相關(guān)兩種狀態(tài),限制了文本的檢索性能。另外,很難將用戶所需的查詢信息轉(zhuǎn)換成表達式。、一個文本所屬的類型只與其出現(xiàn)的頻率有關(guān)而與它出現(xiàn)的先后次序的沒有關(guān)系的,文本的長度、上下文關(guān)系位置以及出現(xiàn)的順序都、目前文本表示最常用的方法是向量空間模型(VectorSpaceModel,簡稱VSM(featureterm):能準(zhǔn)確表示文本特征的單詞。一個文章可以被看特征項權(quán)重 weight):表示該特征項對于文本分類的重要程度D(,)),wk。2.11word word…wordFile…File…File……… ……File 在詞頻矩陣中,word第ij文本的特征選增加了分類時間,并且很大程度降低了文本分類的性能。在高中,一部分文本的特征向量TF-IDF(termfrequency-inversefrequency)詞頻-反轉(zhuǎn)文件頻率,的能力越強。TFtdIDFtIDFt(2-(2-(2-反應(yīng)文本信息的能力越重就越大,反之,越小文本分類是基于機器學(xué)習(xí)的方法。大致可分為三類:1.基于統(tǒng)計的方法,如K近鄰,樸素KK(K-NearestNeighbor,KNN)分類算法,是數(shù)據(jù)挖掘分類技術(shù)中這K0。KNN算法的思想是:如果一個樣本在特征空間中的k個最相鄰的樣本,KNNKNN定其所屬類別因此對于類域的交叉或者較多的待分類樣本集來說KNN方法較其他方法更為適合。x、的pxp(x)p()SVMVapnik使得正例和反例之間的邊緣被最大化該算法以統(tǒng)計學(xué)習(xí)理論(即泛化誤差率以訓(xùn)練誤差率和一VCSVMx(i)和輸入空間抽取的向量x輸出輸入2.2決策(decisiontree)是一個模型運用樹狀圖表示各決策的期望值,T1 F2.3人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworksANNs),也簡稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(ConnectionModel),它是一種模仿動物神經(jīng)網(wǎng)連接權(quán)值連接而成,具有大規(guī)模并行處理、分布式信息、良好的自組織自輸入 隱含 輸出圖 性能評價指性能評價是文本分類中的重要環(huán)節(jié)。主要是率(recall)、準(zhǔn)確(precision)、以及用于評價全局性能的宏平均(macro-average)(micro-average)10,2.21AB標(biāo)記為0的文 率R準(zhǔn)確率P指標(biāo)是互補的,想要提高準(zhǔn)確率,率就會將低,反之亦然。宏平均是每一類的分類性能指標(biāo)的算術(shù)平均值宏平均用MP和MR表示宏觀均用mP和mR表示微觀查準(zhǔn)率和微觀查全率,用代表類別i中所檢索到的文本數(shù),代表被分類器錯分給類別ii1統(tǒng)計學(xué)習(xí)VCVC維是統(tǒng)計學(xué)習(xí)理論的一個概念,它描述了函數(shù)集或?qū)W習(xí)器的復(fù)雜或者學(xué)習(xí)能力的一個重要指標(biāo)。VC就越強。VCVCh2^hhh+1VC維就是h。若對于任意的樣本VC3.33.1R^23.2R^2R^2VC其中h是函數(shù)集的VC,nVCVC如果一個學(xué)習(xí)器的函數(shù)集的維數(shù)為h,訓(xùn)練樣本的數(shù)量為n,當(dāng)較小時以通過式3.1和式3.2來證明。當(dāng)樣本較多,即較大時,置信范圍就會很小,經(jīng)在結(jié)構(gòu)風(fēng)險最小化中,先把函數(shù)集支持向量1,如果屬于負(fù)類,大化。SVM3.3存在最優(yōu)超平面,使得令到該超平面的最小距離為。SVM量和偏置b,3.7VapnikVC式中rSVMVC一組新的非負(fù)變量來處理不可分的樣本點,也稱為松弛變量。把樣本特征到高維特征空間中,如下圖:令為輸入空間的向量,則通過事先確定好的非線性函數(shù),Lagrange3.43.4在支持向量機中,需要選擇核函數(shù)K(),或者是一個(),把樣本空間到一個高維甚至無窮維的特征空間中(Hilbert),使得在原來的樣本是升維和線性化。選擇不同的核函數(shù)或者不同的以及相應(yīng)的Hilbert空間,相當(dāng)于選擇了不同的內(nèi)積核函數(shù)將高的內(nèi)積運算轉(zhuǎn)化為低的核函數(shù)計算,巧妙地解決了“維數(shù)”等問題,并且核函數(shù)的運用,無需知道非線為了用線性的學(xué)習(xí)器學(xué)個非線性的關(guān)系,需要選擇一個非線性特征集,其中,是從輸入空間到某個特征空間的。所以,建立非學(xué)習(xí)器分兩步,首先使用一個非線性將數(shù)據(jù)變換到新的特征空間H中,然后,在這個特征空間線性核函數(shù)徑向基核函數(shù):K(x,y)=exp(-|x-多分類問該方法是通過構(gòu)造一系列二分類器來解決多分類問題的。對于k類分類問題構(gòu)造kSVM分類器,其中iSVM器是通過將屬于第i類的樣本視為第i的第i的第i為了解決離散的不可分區(qū)域問題,Inoue和Abe提出了基于模糊決策函數(shù)的在給定的樣本中,任意選取兩個樣本,構(gòu)造一個二值的SVM分類器。K類問題將有k(k-1)/2SVM子分類器。將選取屬于類別i和類別j的樣本數(shù)據(jù)作為負(fù)。第ij那么就把歸為第k類。如果有多個k值相等,則是不可分的。該算法存在的不可SVM在文本分類中的優(yōu)勢和VCSVM用內(nèi)積的回旋巧妙地構(gòu)造核函數(shù),克服了特征空間中的維數(shù)問題,通過盡管在文本分類領(lǐng)域中,SVMSVM在訓(xùn)練分類器時,SVM們的存在還可能造成過學(xué)習(xí),使泛化能力減弱。4、文本分類系統(tǒng)的設(shè)計與系統(tǒng)運行LIBSVM系統(tǒng)運行191其中高考45經(jīng)濟51軍事50體育45四個類別各成一40篇,放在名為測試集的文件夾中,方便系統(tǒng)進試。所有語料庫樣本為英文文本,文本的格式為.txtLIBSVM工具箱的介LIBSVM是大學(xué)林智仁(LinChih-Jen)等開發(fā)設(shè)計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的包里面不但提供了編譯好的Windows它操作系統(tǒng)上應(yīng)用;該還有一個特點,就是對SVM所涉及的參數(shù)調(diào)節(jié)相對比供了交互檢驗(CrossValidation)的功能。該可以解決C-SVM分類、-SVMSVMSVM通過綜合考慮,我決定采用該作為工作。SVM用于模式識別或回歸時,SVM方法及其參數(shù)、核函數(shù)及其參數(shù)的選擇,目前國際上還沒有形成一個LIBSVM的使用步按照LIBSVM包所要求的格式準(zhǔn)備數(shù)據(jù)集RBF采用交叉驗證選擇最佳參數(shù)Cg采用最佳參數(shù)Cg利用獲取的模型進試與LIBSVM使用的數(shù)據(jù)格該使用的訓(xùn)練數(shù)據(jù)和檢驗數(shù)據(jù)文件格式如下<label><index1>:<value1><index2>:<value2>續(xù)的;<value>;為實數(shù),也就是常說的自變量。檢驗數(shù)據(jù)文件中的label杜,.支持向量機及其算法研究[J].與信息化,SVM[D].陶蘭,申軍霞.文本信息自動分類系統(tǒng)ITC98(Ⅰ):ITC系統(tǒng)[J].中國學(xué)報,1999,4(4):74-侯漢清.分類法的發(fā)展趨勢簡論[J].科學(xué),1981(1):58-于.中文文本分類相關(guān)算法的研究與實現(xiàn)[D].西學(xué),葉志剛.SVM[D].哈爾濱工程大學(xué),瓦普.統(tǒng)計學(xué)習(xí)理論的本質(zhì)[M].,SVM[J].學(xué)術(shù)交流,2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論