版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
虛假評論檢測系統(tǒng)的設(shè)計與實現(xiàn)大連理工大學(xué)目錄研究背景、現(xiàn)狀及意義相關(guān)算法需求分析系統(tǒng)設(shè)計系統(tǒng)實現(xiàn)實驗海南三亞。裝機(jī)量?規(guī)模?1
研究背景、現(xiàn)狀及意義 隨著網(wǎng)絡(luò)的普及,人們的生活方式也隨之悄然改變?!熬W(wǎng)購”也是人們生活方式改變的實例之一。我們經(jīng)常會閱讀其他消費者對該商品的使用評價,從而獲得關(guān)于該商品的更加全面,更加客觀的信息。通過這種方法,我們彌補了網(wǎng)上購物不能親身感受商品實體的不足。虛假評論的檢測是近年來國內(nèi)外數(shù)據(jù)挖掘領(lǐng)域的熱點話題,受到了國內(nèi)外許多學(xué)者的關(guān)注。他們通過時間模式、情感分析、用戶關(guān)系等方面對虛假評論進(jìn)行了挖掘。海南三亞。裝機(jī)量?規(guī)模?1
研究背景、現(xiàn)狀及意義 所以閱讀電子商務(wù)網(wǎng)站中的評論是一把雙刃劍。如果我們讀到了真正消費者的評論,就能夠了解商品真正的狀況。當(dāng)我們遇到了虛假評論,那利益就會受到侵害。由此可見,及時的發(fā)現(xiàn)虛假評論有著重要的意義。及時發(fā)現(xiàn)虛假評論能夠讓消費者的權(quán)益的到保證,讓商家能夠正確的估計商品的銷售情況。相關(guān)算法回歸算法樸素貝葉斯算法演化選擇的樸實貝葉斯支持向量機(jī)23需求分析系統(tǒng)設(shè)計的背景目前為止,還沒有具體的資料能夠說明在電子商務(wù)網(wǎng)站中到底有多少虛假評論,但是虛假評論的存在引起的許多問題亟須解決。同時,至今為止,還沒有一個比較可靠的,成熟高效的,針對電子商務(wù)網(wǎng)站設(shè)計的虛假評論檢測系統(tǒng)。這就使得消費者在面對虛假評論的時候顯得那么的無助。3需求分析系統(tǒng)設(shè)計目標(biāo)無論中文數(shù)據(jù)還是英文數(shù)據(jù),檢測系統(tǒng)都可以進(jìn)行分析建立對兩種常見形態(tài)的數(shù)據(jù)集的特定分析模式。能對電子商務(wù)網(wǎng)站中普遍存在的數(shù)據(jù)進(jìn)行分析。能夠從不同角度對消費者的評論進(jìn)行分析。系統(tǒng)要能夠支持有訓(xùn)練集和沒有訓(xùn)練集的數(shù)據(jù)的分析。3需求分析虛假評論檢測系統(tǒng)用例圖3需求分析系統(tǒng)功能需求數(shù)據(jù)預(yù)處理數(shù)據(jù)分析數(shù)據(jù)集標(biāo)注分類和聚類評估3需求分析系統(tǒng)功能需求數(shù)據(jù)預(yù)處理數(shù)據(jù)分析數(shù)據(jù)集標(biāo)注抽樣維歸約特征子集選取特征創(chuàng)建特征的離散化和二維化屬性變換星星評級相似度評論文本相似度時間差異分析文本特征分析評論者背景特征評論者行為特征情感特征有用度特征隨機(jī)選取子集人工標(biāo)注3需求分析虛假評論系統(tǒng)的框架4虛假評論系統(tǒng)的設(shè)計系統(tǒng)的總體設(shè)計4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊的設(shè)計4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊評級相似度得分模塊定義了針對某商品的虛假評級行為得分的公式:
其中,代表未正規(guī)化之前的評論者虛假評級行為得分。定義為:
是比較某用戶在對某商品進(jìn)行所有評級的相似度,定義如下:4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊評論文本相似度得分我們定義了兩條評論和的相似度如下:計算評論之間的相似度,本系統(tǒng)使用空間向量模型來計算評論之間的相似度。計算評論中每個單詞的TF-IDF權(quán)重。
當(dāng)=1時,代表兩個文本向量相同。為了計算該評論者針對該商品的所有評論的相似度,將該評論集合中的所有向量兩兩比較,計算評論集合相似度的公式:4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊評論文本相似度得分
因此,根據(jù)上述定義,得出了評論者針對某商品的虛假評論行為得分的公式:其中,4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊情感特征句子主客觀詞比例本系統(tǒng)構(gòu)建了一個能夠表達(dá)主觀含義的動詞集。系統(tǒng)使用情感詞典WordNet將句子中的動詞與主觀動詞集中的單詞進(jìn)行相似度比較,然后判斷該動詞是否為主觀動詞。句子正負(fù)向比例大多數(shù)情況下,正常的評論應(yīng)該既包含對商品的正向評價又包含對商品的負(fù)向評價。我們通過計算正負(fù)向內(nèi)容的比例來作為另一種情感特征。在分析句子的正負(fù)向時,本系統(tǒng)使用LingPipe進(jìn)行的。4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊情感特征情感相似度得分本系統(tǒng)定義了消費者虛假評論得分公式:其中,為該消費者針對所有商品的評論情感得分。為消費者針對該商品評論的條目。其中,為每條評論的情感得分。在實驗中,系統(tǒng)設(shè)定當(dāng)評論為積極時,=1;當(dāng)情感為消極時,=-1。4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊時間差異(1)一般差異系統(tǒng)定義了平均評級與虛假評級的差異函數(shù):針對消費者的虛假評級一般差異得分公式:4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊時間差異(2)早期差異和一般評級差異相比,系統(tǒng)在早期評級差異中加入了時間的概念。系統(tǒng)按照時間將針對某種商品的評論排序,代表某商品的第i條評論,從而系統(tǒng)得到了虛假評級得分公式:其中,為為一個大于1的參數(shù),這個參數(shù)可以加速衰減速度。4虛假評論系統(tǒng)的設(shè)計數(shù)據(jù)分析模塊評論文本特征文本評論長度文本評論中第一人稱和第二人稱的使用評論有用度特征如果在數(shù)據(jù)集中存在有用度信息,那么系統(tǒng)就直接利用這條數(shù)據(jù)進(jìn)行分析;如果不存在有用度信息,系統(tǒng)就用“認(rèn)為有用”除以“認(rèn)為有用”和“認(rèn)為沒用”的和來獲得這個特征值。評論者背景特征系統(tǒng)可以將消費者的十個級別正規(guī)化。系統(tǒng)最后將評論條數(shù)正規(guī)化為0-1之間的一個數(shù)值。、5虛假評論系統(tǒng)的實現(xiàn)預(yù)處理模塊的實現(xiàn)5虛假評論系統(tǒng)的實現(xiàn)數(shù)據(jù)分析模塊的實現(xiàn)中文分詞模塊的實現(xiàn)實現(xiàn)了單詞能夠按照詞性分類及統(tǒng)計每個分類中單詞的個數(shù)。5虛假評論系統(tǒng)的實現(xiàn)數(shù)據(jù)分析模塊的實現(xiàn)情感特征分析模塊句子主客觀分析模塊的實現(xiàn)系統(tǒng)基于WordNet實現(xiàn)了一個比較單詞主客觀相似度的模塊,我們利用這個能夠比較單詞相似度的模塊比較主觀詞集中的主觀詞與該單詞相似度,并統(tǒng)計該單詞與主觀詞集中主觀詞的相似度平均值。句子傾向性分析模塊的實現(xiàn)在句子傾向性分析模塊,系統(tǒng)使用了LingPipe來進(jìn)行句子情感傾向性的分析。5虛假評論系統(tǒng)的實現(xiàn)數(shù)據(jù)分析模塊的實現(xiàn)數(shù)據(jù)集標(biāo)注模塊的實現(xiàn)5虛假評論系統(tǒng)的實現(xiàn)數(shù)據(jù)分析模塊的實現(xiàn)聚類分類模塊的實現(xiàn)6實驗實驗一亞馬遜數(shù)據(jù)集(2)性能測試首先,系統(tǒng)要將匿名賬號及其評論刪除。第二,刪除相同的商品。第三,移除不活躍用戶。第四,移除不流行商品。第五,解決同品牌不同寫法。6實驗實驗一亞馬遜數(shù)據(jù)集(2)性能測試首先,針對同一用戶同一種商品我們選用了評論相似度的分析模塊、評級相似度分析模塊和情感相似度分析模塊。最后將三種行為得分相加取平均值。第二,使用了一般差異模塊,早期差異模塊。綜合三部分得到6實驗實驗一亞馬遜數(shù)據(jù)集(2)性能測試我們?nèi)∶糠N分析模塊評分的前10名用戶ID和后10名用
戶ID,之后構(gòu)建了一個擁有72個用戶ID的評論者集合。然后、統(tǒng)計所有用戶ID的虛假評論得分,并按照降序排列。取前25個用戶ID和后25個用戶ID用于評估。在評估中,將用戶ID打亂順序,然后選取了每個用戶ID的10條評論給三位有經(jīng)驗的評估者。三位評估者根據(jù)每個ID的十條評論來對評論者是否是虛假評論者作出判斷。6實驗實驗一亞馬遜數(shù)據(jù)集(2)性能測試評估結(jié)果:不同分析方法對虛假評論者判定的效果:6實驗實驗一亞馬遜數(shù)據(jù)集(2)性能測試不同分析方法對虛假評論者判定的效果:用上面得到的50個標(biāo)注好的評論者可以訓(xùn)練一個線性回歸模型。根據(jù)最小化均方誤差法,我們學(xué)習(xí)的回歸模型的參數(shù)值6實驗實驗二京東商城數(shù)據(jù)集(2)性能測試測試1:我們選定核函數(shù),然后設(shè)置不同參數(shù),觀察識別率的變化情況。首先,固定懲罰因子C,將其賦值1000。其次,設(shè)置多個參數(shù)對訓(xùn)練集進(jìn)行識別,比較結(jié)果,找出比較好的參數(shù)值。測試2:選擇測試1中識別率比較高的核函數(shù)和參數(shù),改變懲罰因子C,觀察懲罰因子C對識別率的影響。6實驗實驗二京東商城數(shù)據(jù)集(2)性能測試6實驗實驗二京東商城數(shù)據(jù)集(2)性能測試6實驗實驗二京東商城數(shù)據(jù)集(2)性能測試6結(jié)論隨
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年1月普通高等學(xué)校招生全國統(tǒng)一考試適應(yīng)性測試(八省聯(lián)考)日語試題
- 2025版木枋行業(yè)合作開發(fā)與市場推廣合同4篇
- 二零二五年度子公司向母公司采購原材料及貸款合同2篇
- 全球化對服務(wù)業(yè)現(xiàn)狀的全球影響考核試卷
- 2025版太陽能光伏電站設(shè)計、施工與運營管理合同3篇
- 創(chuàng)意木制品設(shè)計與實踐考核試卷
- 2025年版專業(yè)演講錄音合同范本演講錄音制作授權(quán)協(xié)議4篇
- 二零二五年度工程建設(shè)項目拉森鋼板樁租賃合同3篇
- 2025版商場家居用品采購配送與環(huán)保認(rèn)證服務(wù)合同3篇
- 二零二五版反擔(dān)保股權(quán)質(zhì)押合同2篇
- 河南省濮陽市2024-2025學(xué)年高一上學(xué)期1月期末考試語文試題(含答案)
- 割接方案的要點、難點及采取的相應(yīng)措施
- 2025年副護(hù)士長競聘演講稿(3篇)
- 2024年08月北京中信銀行北京分行社會招考(826)筆試歷年參考題庫附帶答案詳解
- 原發(fā)性腎病綜合征護(hù)理
- (一模)株洲市2025屆高三教學(xué)質(zhì)量統(tǒng)一檢測 英語試卷
- 基礎(chǔ)護(hù)理學(xué)導(dǎo)尿操作
- DB11∕T 1028-2021 民用建筑節(jié)能門窗工程技術(shù)標(biāo)準(zhǔn)
- (初級)航空油料計量統(tǒng)計員技能鑒定理論考試題庫(含答案)
- 中國古代文學(xué)史 馬工程課件(中)24第六編 遼西夏金元文學(xué) 緒論
- 最新交管12123學(xué)法減分題庫含答案(通用版)
評論
0/150
提交評論