虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)
虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)
虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)
虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)
虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩32頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

虛假評(píng)論檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)大連理工大學(xué)目錄研究背景、現(xiàn)狀及意義相關(guān)算法需求分析系統(tǒng)設(shè)計(jì)系統(tǒng)實(shí)現(xiàn)實(shí)驗(yàn)海南三亞。裝機(jī)量?規(guī)模?1

研究背景、現(xiàn)狀及意義 隨著網(wǎng)絡(luò)的普及,人們的生活方式也隨之悄然改變?!熬W(wǎng)購(gòu)”也是人們生活方式改變的實(shí)例之一。我們經(jīng)常會(huì)閱讀其他消費(fèi)者對(duì)該商品的使用評(píng)價(jià),從而獲得關(guān)于該商品的更加全面,更加客觀的信息。通過(guò)這種方法,我們彌補(bǔ)了網(wǎng)上購(gòu)物不能親身感受商品實(shí)體的不足。虛假評(píng)論的檢測(cè)是近年來(lái)國(guó)內(nèi)外數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)話題,受到了國(guó)內(nèi)外許多學(xué)者的關(guān)注。他們通過(guò)時(shí)間模式、情感分析、用戶關(guān)系等方面對(duì)虛假評(píng)論進(jìn)行了挖掘。海南三亞。裝機(jī)量?規(guī)模?1

研究背景、現(xiàn)狀及意義 所以閱讀電子商務(wù)網(wǎng)站中的評(píng)論是一把雙刃劍。如果我們讀到了真正消費(fèi)者的評(píng)論,就能夠了解商品真正的狀況。當(dāng)我們遇到了虛假評(píng)論,那利益就會(huì)受到侵害。由此可見(jiàn),及時(shí)的發(fā)現(xiàn)虛假評(píng)論有著重要的意義。及時(shí)發(fā)現(xiàn)虛假評(píng)論能夠讓消費(fèi)者的權(quán)益的到保證,讓商家能夠正確的估計(jì)商品的銷售情況。相關(guān)算法回歸算法樸素貝葉斯算法演化選擇的樸實(shí)貝葉斯支持向量機(jī)23需求分析系統(tǒng)設(shè)計(jì)的背景目前為止,還沒(méi)有具體的資料能夠說(shuō)明在電子商務(wù)網(wǎng)站中到底有多少虛假評(píng)論,但是虛假評(píng)論的存在引起的許多問(wèn)題亟須解決。同時(shí),至今為止,還沒(méi)有一個(gè)比較可靠的,成熟高效的,針對(duì)電子商務(wù)網(wǎng)站設(shè)計(jì)的虛假評(píng)論檢測(cè)系統(tǒng)。這就使得消費(fèi)者在面對(duì)虛假評(píng)論的時(shí)候顯得那么的無(wú)助。3需求分析系統(tǒng)設(shè)計(jì)目標(biāo)無(wú)論中文數(shù)據(jù)還是英文數(shù)據(jù),檢測(cè)系統(tǒng)都可以進(jìn)行分析建立對(duì)兩種常見(jiàn)形態(tài)的數(shù)據(jù)集的特定分析模式。能對(duì)電子商務(wù)網(wǎng)站中普遍存在的數(shù)據(jù)進(jìn)行分析。能夠從不同角度對(duì)消費(fèi)者的評(píng)論進(jìn)行分析。系統(tǒng)要能夠支持有訓(xùn)練集和沒(méi)有訓(xùn)練集的數(shù)據(jù)的分析。3需求分析虛假評(píng)論檢測(cè)系統(tǒng)用例圖3需求分析系統(tǒng)功能需求數(shù)據(jù)預(yù)處理數(shù)據(jù)分析數(shù)據(jù)集標(biāo)注分類和聚類評(píng)估3需求分析系統(tǒng)功能需求數(shù)據(jù)預(yù)處理數(shù)據(jù)分析數(shù)據(jù)集標(biāo)注抽樣維歸約特征子集選取特征創(chuàng)建特征的離散化和二維化屬性變換星星評(píng)級(jí)相似度評(píng)論文本相似度時(shí)間差異分析文本特征分析評(píng)論者背景特征評(píng)論者行為特征情感特征有用度特征隨機(jī)選取子集人工標(biāo)注3需求分析虛假評(píng)論系統(tǒng)的框架4虛假評(píng)論系統(tǒng)的設(shè)計(jì)系統(tǒng)的總體設(shè)計(jì)4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊的設(shè)計(jì)4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊評(píng)級(jí)相似度得分模塊定義了針對(duì)某商品的虛假評(píng)級(jí)行為得分的公式:

其中,代表未正規(guī)化之前的評(píng)論者虛假評(píng)級(jí)行為得分。定義為:

是比較某用戶在對(duì)某商品進(jìn)行所有評(píng)級(jí)的相似度,定義如下:4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊評(píng)論文本相似度得分我們定義了兩條評(píng)論和的相似度如下:計(jì)算評(píng)論之間的相似度,本系統(tǒng)使用空間向量模型來(lái)計(jì)算評(píng)論之間的相似度。計(jì)算評(píng)論中每個(gè)單詞的TF-IDF權(quán)重。

當(dāng)=1時(shí),代表兩個(gè)文本向量相同。為了計(jì)算該評(píng)論者針對(duì)該商品的所有評(píng)論的相似度,將該評(píng)論集合中的所有向量?jī)蓛杀容^,計(jì)算評(píng)論集合相似度的公式:4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊評(píng)論文本相似度得分

因此,根據(jù)上述定義,得出了評(píng)論者針對(duì)某商品的虛假評(píng)論行為得分的公式:其中,4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊情感特征句子主客觀詞比例本系統(tǒng)構(gòu)建了一個(gè)能夠表達(dá)主觀含義的動(dòng)詞集。系統(tǒng)使用情感詞典WordNet將句子中的動(dòng)詞與主觀動(dòng)詞集中的單詞進(jìn)行相似度比較,然后判斷該動(dòng)詞是否為主觀動(dòng)詞。句子正負(fù)向比例大多數(shù)情況下,正常的評(píng)論應(yīng)該既包含對(duì)商品的正向評(píng)價(jià)又包含對(duì)商品的負(fù)向評(píng)價(jià)。我們通過(guò)計(jì)算正負(fù)向內(nèi)容的比例來(lái)作為另一種情感特征。在分析句子的正負(fù)向時(shí),本系統(tǒng)使用LingPipe進(jìn)行的。4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊情感特征情感相似度得分本系統(tǒng)定義了消費(fèi)者虛假評(píng)論得分公式:其中,為該消費(fèi)者針對(duì)所有商品的評(píng)論情感得分。為消費(fèi)者針對(duì)該商品評(píng)論的條目。其中,為每條評(píng)論的情感得分。在實(shí)驗(yàn)中,系統(tǒng)設(shè)定當(dāng)評(píng)論為積極時(shí),=1;當(dāng)情感為消極時(shí),=-1。4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊時(shí)間差異(1)一般差異系統(tǒng)定義了平均評(píng)級(jí)與虛假評(píng)級(jí)的差異函數(shù):針對(duì)消費(fèi)者的虛假評(píng)級(jí)一般差異得分公式:4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊時(shí)間差異(2)早期差異和一般評(píng)級(jí)差異相比,系統(tǒng)在早期評(píng)級(jí)差異中加入了時(shí)間的概念。系統(tǒng)按照時(shí)間將針對(duì)某種商品的評(píng)論排序,代表某商品的第i條評(píng)論,從而系統(tǒng)得到了虛假評(píng)級(jí)得分公式:其中,為為一個(gè)大于1的參數(shù),這個(gè)參數(shù)可以加速衰減速度。4虛假評(píng)論系統(tǒng)的設(shè)計(jì)數(shù)據(jù)分析模塊評(píng)論文本特征文本評(píng)論長(zhǎng)度文本評(píng)論中第一人稱和第二人稱的使用評(píng)論有用度特征如果在數(shù)據(jù)集中存在有用度信息,那么系統(tǒng)就直接利用這條數(shù)據(jù)進(jìn)行分析;如果不存在有用度信息,系統(tǒng)就用“認(rèn)為有用”除以“認(rèn)為有用”和“認(rèn)為沒(méi)用”的和來(lái)獲得這個(gè)特征值。評(píng)論者背景特征系統(tǒng)可以將消費(fèi)者的十個(gè)級(jí)別正規(guī)化。系統(tǒng)最后將評(píng)論條數(shù)正規(guī)化為0-1之間的一個(gè)數(shù)值。、5虛假評(píng)論系統(tǒng)的實(shí)現(xiàn)預(yù)處理模塊的實(shí)現(xiàn)5虛假評(píng)論系統(tǒng)的實(shí)現(xiàn)數(shù)據(jù)分析模塊的實(shí)現(xiàn)中文分詞模塊的實(shí)現(xiàn)實(shí)現(xiàn)了單詞能夠按照詞性分類及統(tǒng)計(jì)每個(gè)分類中單詞的個(gè)數(shù)。5虛假評(píng)論系統(tǒng)的實(shí)現(xiàn)數(shù)據(jù)分析模塊的實(shí)現(xiàn)情感特征分析模塊句子主客觀分析模塊的實(shí)現(xiàn)系統(tǒng)基于WordNet實(shí)現(xiàn)了一個(gè)比較單詞主客觀相似度的模塊,我們利用這個(gè)能夠比較單詞相似度的模塊比較主觀詞集中的主觀詞與該單詞相似度,并統(tǒng)計(jì)該單詞與主觀詞集中主觀詞的相似度平均值。句子傾向性分析模塊的實(shí)現(xiàn)在句子傾向性分析模塊,系統(tǒng)使用了LingPipe來(lái)進(jìn)行句子情感傾向性的分析。5虛假評(píng)論系統(tǒng)的實(shí)現(xiàn)數(shù)據(jù)分析模塊的實(shí)現(xiàn)數(shù)據(jù)集標(biāo)注模塊的實(shí)現(xiàn)5虛假評(píng)論系統(tǒng)的實(shí)現(xiàn)數(shù)據(jù)分析模塊的實(shí)現(xiàn)聚類分類模塊的實(shí)現(xiàn)6實(shí)驗(yàn)實(shí)驗(yàn)一亞馬遜數(shù)據(jù)集(2)性能測(cè)試首先,系統(tǒng)要將匿名賬號(hào)及其評(píng)論刪除。第二,刪除相同的商品。第三,移除不活躍用戶。第四,移除不流行商品。第五,解決同品牌不同寫法。6實(shí)驗(yàn)實(shí)驗(yàn)一亞馬遜數(shù)據(jù)集(2)性能測(cè)試首先,針對(duì)同一用戶同一種商品我們選用了評(píng)論相似度的分析模塊、評(píng)級(jí)相似度分析模塊和情感相似度分析模塊。最后將三種行為得分相加取平均值。第二,使用了一般差異模塊,早期差異模塊。綜合三部分得到6實(shí)驗(yàn)實(shí)驗(yàn)一亞馬遜數(shù)據(jù)集(2)性能測(cè)試我們?nèi)∶糠N分析模塊評(píng)分的前10名用戶ID和后10名用

戶ID,之后構(gòu)建了一個(gè)擁有72個(gè)用戶ID的評(píng)論者集合。然后、統(tǒng)計(jì)所有用戶ID的虛假評(píng)論得分,并按照降序排列。取前25個(gè)用戶ID和后25個(gè)用戶ID用于評(píng)估。在評(píng)估中,將用戶ID打亂順序,然后選取了每個(gè)用戶ID的10條評(píng)論給三位有經(jīng)驗(yàn)的評(píng)估者。三位評(píng)估者根據(jù)每個(gè)ID的十條評(píng)論來(lái)對(duì)評(píng)論者是否是虛假評(píng)論者作出判斷。6實(shí)驗(yàn)實(shí)驗(yàn)一亞馬遜數(shù)據(jù)集(2)性能測(cè)試評(píng)估結(jié)果:不同分析方法對(duì)虛假評(píng)論者判定的效果:6實(shí)驗(yàn)實(shí)驗(yàn)一亞馬遜數(shù)據(jù)集(2)性能測(cè)試不同分析方法對(duì)虛假評(píng)論者判定的效果:用上面得到的50個(gè)標(biāo)注好的評(píng)論者可以訓(xùn)練一個(gè)線性回歸模型。根據(jù)最小化均方誤差法,我們學(xué)習(xí)的回歸模型的參數(shù)值6實(shí)驗(yàn)實(shí)驗(yàn)二京東商城數(shù)據(jù)集(2)性能測(cè)試測(cè)試1:我們選定核函數(shù),然后設(shè)置不同參數(shù),觀察識(shí)別率的變化情況。首先,固定懲罰因子C,將其賦值1000。其次,設(shè)置多個(gè)參數(shù)對(duì)訓(xùn)練集進(jìn)行識(shí)別,比較結(jié)果,找出比較好的參數(shù)值。測(cè)試2:選擇測(cè)試1中識(shí)別率比較高的核函數(shù)和參數(shù),改變懲罰因子C,觀察懲罰因子C對(duì)識(shí)別率的影響。6實(shí)驗(yàn)實(shí)驗(yàn)二京東商城數(shù)據(jù)集(2)性能測(cè)試6實(shí)驗(yàn)實(shí)驗(yàn)二京東商城數(shù)據(jù)集(2)性能測(cè)試6實(shí)驗(yàn)實(shí)驗(yàn)二京東商城數(shù)據(jù)集(2)性能測(cè)試6結(jié)論隨

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論