支持向量機(jī)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁
支持向量機(jī)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁
支持向量機(jī)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

支持向量機(jī)的設(shè)計(jì)與實(shí)現(xiàn)

1總結(jié)網(wǎng)絡(luò)信息的研究和評價是有效控制網(wǎng)絡(luò),促進(jìn)社會主義和諧社會建設(shè)的重要手段。2svm的原理支持向量機(jī)(SupportVectorMachine,SVM)是CorinnaCortes和Vapnik等于1995年首先提出的,它在解決高維模式識別中有許多優(yōu)勢,并能夠推廣到其它機(jī)器學(xué)習(xí)問題中。與傳統(tǒng)的機(jī)器學(xué)習(xí)對比發(fā)現(xiàn),在基于VC維(Vipnik-Chervonenkisdimension)理論中,SVM遵循結(jié)構(gòu)風(fēng)險最小化的原則。其理論思想是:首先選擇事先預(yù)定的非線性映射關(guān)系uf066(uf0d7),將輸入的向量X映射到一個高維特征空間向量Z;接著在這個空間向量中構(gòu)建最優(yōu)的分類超平面;最終讓正確和錯誤樣本之間的分離界限達(dá)到最大。依概念理解,離那些決策平面最近的數(shù)據(jù)點(diǎn)就構(gòu)成了支持向量,這決定了最優(yōu)分類超平面的位置。研究證明,最大化分離界限等價于使權(quán)向量的Euclidean范數(shù)最小2.1rage函數(shù)中的svm在兩模式分類問題模型中:第一類表示為1,第二類表示為-1。分類超平面表達(dá)式為:其中,w是權(quán)矢量,其中,N和其中,稱為懲罰因子。其約束條件是:利用Lagrange乘子法得到此問題的對偶問題其中Lagrange乘子用α(28)[uf061,(6)式可以寫為:約束條件:其中K(x其中,sgn(·)是符號函數(shù)。研究發(fā)現(xiàn),當(dāng)uf061其中,M表示支持向量的個數(shù)。而對于通過(12)式確定的閾值b,就能得出判決函數(shù)。分析發(fā)現(xiàn)采用不同的內(nèi)積核函數(shù),就可以構(gòu)造出不同類型SVM,常用的SVM主要有:(1)多項(xiàng)式核函數(shù)SVM;(2)徑向基核函數(shù)SVM;(3)兩層感知器核函數(shù)SVM;使用較多的是前兩種SVM。2.2quadatchpart2通過前面的討論可以得出,SVM的訓(xùn)練問題可以歸納為一種二次規(guī)劃(quadraticprogramming,QP)問題。在近十年的發(fā)展中,涌現(xiàn)出許多新學(xué)習(xí)算法,其中比較經(jīng)典的有:Vapnik提出了chunking方法,Joachims提出了SVM3解決數(shù)據(jù)聚類分析問題的決策樹設(shè)計(jì)在互聯(lián)網(wǎng)分析中引入聚類分析,就是對互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行歸類、分組、匯總,得出群體的聚類特征并形成屬性知識。而趨勢分析則是對前面會聯(lián)網(wǎng)數(shù)據(jù)聚類分析后所得到的屬性知識為研究對象,接著設(shè)計(jì)出解決此問題的決策樹,以揭示出問題發(fā)展的趨勢,為預(yù)測和把握未來發(fā)展方向提供幫助。計(jì)算動詞決策樹的過程是:首先從研究對象屬性類型的根節(jié)點(diǎn)選取,其次選取根節(jié)點(diǎn)的下一個葉子節(jié)點(diǎn)N,接著找到此節(jié)點(diǎn)N的最佳決策屬性,然后通過計(jì)算動詞增益和計(jì)算動詞熵來訓(xùn)練節(jié)點(diǎn),最后判斷是否把訓(xùn)練樣本進(jìn)行了最佳分類,得到就結(jié)束,否則繼續(xù)找最佳決策屬性。4關(guān)注熱點(diǎn)、敏感話題的識別與追蹤(1)在支持向量機(jī)技術(shù)的支持下,對新聞、論壇/BBS、博客、即時通信軟件等渠道傳播的網(wǎng)絡(luò)輿情進(jìn)行采集,運(yùn)用聚類分析、主題檢測與跟蹤、自動摘要等定向分析技術(shù),可以得出網(wǎng)絡(luò)輿情傳播者的感情、想法、觀點(diǎn)、立場和意圖等主觀的特征表現(xiàn)。最終實(shí)現(xiàn)用關(guān)鍵字布控、語義分析來達(dá)到識別敏感話題的目的。(2)熱點(diǎn)話題、敏感話題瞄準(zhǔn)與追蹤。目前國內(nèi)外大多采用了文本聚類技術(shù)——文本關(guān)鍵字詞作為文本特征,分析新發(fā)表文章、貼子的話題是否與已有熱點(diǎn)或敏感主題相同,并對發(fā)表的話題和發(fā)信人發(fā)表的文章的觀點(diǎn)、傾向性進(jìn)行分析與統(tǒng)計(jì)。(3)研究發(fā)現(xiàn)當(dāng)前的網(wǎng)絡(luò)輿情的研判和預(yù)警效果并不理想。主要原因是缺乏統(tǒng)一全面的、全方位多層次的網(wǎng)絡(luò)輿情預(yù)警信息系統(tǒng),無法滿足當(dāng)前用戶所期望的需求;此外各大廠商之間缺乏合作和協(xié)調(diào),難以形成有效的合力。所以網(wǎng)絡(luò)輿情分析及研判技術(shù)還有更大的發(fā)展空間。(4)除市場環(huán)境及用戶需求沒有邊界等特殊因素外,怎樣將計(jì)算技術(shù)與處理內(nèi)容結(jié)合,怎樣設(shè)計(jì)具體的分析引擎和自動信息采集,怎樣構(gòu)建輿情分析庫、屬性知識儲備庫,怎樣對收集的信息進(jìn)行與判斷、篩選和預(yù)處理形成格式化信息,怎樣加強(qiáng)專家與系統(tǒng)結(jié)合、人機(jī)結(jié)合來提升輿情判斷的準(zhǔn)確性等到都是當(dāng)前解決問題的最重要環(huán)節(jié)。5在折中的應(yīng)用支持向量機(jī)理論建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上,它作為一種新的機(jī)器學(xué)習(xí)方法,能夠依據(jù)有限的樣本信息,在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,在解決模式分類問題上具有近似最優(yōu),而且在沒有問題域相關(guān)知識屬性時所設(shè)計(jì)的機(jī)器依然具有較好的性能。文中提出一種基于支持向量機(jī)技術(shù)的網(wǎng)絡(luò)輿情研判方法,具有突出的小樣本學(xué)習(xí)方法,借助它強(qiáng)大的泛化能力,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”,在網(wǎng)絡(luò)輿情信息處理中具有良好

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論