版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)在電子商務(wù)中的應(yīng)用——在線評論信息挖掘1.引言
隨著互聯(lián)網(wǎng)的發(fā)展和普及,Web已經(jīng)成為用戶在線反饋觀點的主要途徑。 網(wǎng)絡(luò)購物、論壇發(fā)表意見無形中已經(jīng)成為了大多數(shù)網(wǎng)友上網(wǎng)的樂趣,而網(wǎng)絡(luò)機構(gòu)也開始意識到通過提供在線評論能夠增加與用戶的互動,獲得自身的改進。 然而面對網(wǎng)上海量的良莠不齊的信息和數(shù)據(jù),企業(yè)、政府和用戶要想從在線評論中獲得有用的信息,只有通過人工閱讀的方式來獲取,這不僅需要耗費大量的時間,而且極易產(chǎn)生錯誤。
網(wǎng)民焦點話題
消費經(jīng)驗經(jīng)濟發(fā)展趨勢
在線評論用戶體驗評論對像特征在線評論社會輿論導(dǎo)向
在線評論的挖掘研究在線評論的挖掘研究自然語言處理
數(shù)據(jù)挖掘
機器學(xué)習(xí)信息抽取2.現(xiàn)狀I(lǐng)SIWebofScience相關(guān)文獻33733篇JournalofInteractiveMarketing、DecisionSupportSystems熱點問題情感分析
評論中產(chǎn)品特征挖掘
評論中產(chǎn)品特征挖掘情感分析評論中主觀內(nèi)容識別等評論挖掘作為非結(jié)構(gòu)化信息挖掘的一個信息領(lǐng)域
英文評論領(lǐng)域,研究者已經(jīng)初步取得一些成果,而針對中文網(wǎng)絡(luò)評論的研究仍然處于起步階段。目前,關(guān)于此問題的研究,國外研究者主要是從對網(wǎng)絡(luò)評論信息特征的主觀觀點、評論的情感性分析及評論信息的可信度方面研究。
在中國知網(wǎng)(CNKI)上檢索(主題=中英文擴展(網(wǎng)絡(luò)評論)或主題=中英文擴展(在線評論)),檢索結(jié)果為934條。Hu等利用從亞馬遜及Barnes&Noble(全球第二大網(wǎng)上書店,僅次于第一名亞馬遜)得來的圖書評論信息來證明目前存在部分出版商、作者及賣家有意操縱評論信息的情況,其研究結(jié)果表明大多消費者會根據(jù)商品價格來判斷商品質(zhì)量,商家在不進行有意的評論操縱或者銷售質(zhì)量較高的產(chǎn)品更容易改變消費中的購買傾向性,由此建議可以通過增加操縱成本來緩和消費者被操縱產(chǎn)生的不良后果。Wang等選擇采用半監(jiān)督-交叉訓(xùn)練方法,以迭代的方式挖掘評論對象和評價詞,通過樸素貝葉斯分類器在只有很少標(biāo)注的語料的前提下取得結(jié)果。郭國慶等引入了霍夫蘭德在耶魯大學(xué)提出的基于信息傳播過程的說服或態(tài)度改變模型,在模型本身提出的信息源、信息內(nèi)容、接收者三個方面的基礎(chǔ)上,加入社會因素,提出了在線評論可信度影響因素模型,并以第三方評論網(wǎng)站為例,進行了實證研究。3.在線評論信息挖掘方法觀點句識別在線評論要素抽取情感傾向性分析垃圾評論識別評論信息可信度分析在線評論信息挖掘技術(shù)方法
基于知識規(guī)則方法基于機器學(xué)習(xí)的方法當(dāng)前具有代表性的研究方法
3.1基于知識規(guī)則方法該方法用于在線評論情感傾向性分析是,通?;谝粋€預(yù)先定義的情感詞典,如WordNet、HowNet等詞表,統(tǒng)計整個句子中的情感詞的傾向性,進而得到句子的情感傾向。上海交通大學(xué)的婁德成等通過手工對HowNet包含的所有詞條進行傾向性標(biāo)注,并從網(wǎng)絡(luò)上選取一定量的極性次于作為種子集合,得到了數(shù)量可觀的褒貶次于字典,字典中不包含的新詞,通過計算新詞與種子集合中次于的互信息而得到新詞的語義傾向。對于意見持有者的識別,Stoyanov采用命名實體識別的方法,將意見持有者看作一個實體,通過選擇相同實體的意見持有者以解決互指問題;Kim等首先通過分析句子的句法結(jié)構(gòu)識別動詞或形容詞等帶有情感傾向的詞語,在借助FrameNet標(biāo)注其情感角色以識別出主題、意見持有者等信息。3.1基于知識規(guī)則方法基于知識的規(guī)則方法中通常還基于自然語言語義理解,使用句法分析方法從評論的文本結(jié)構(gòu)分析定義一系列規(guī)則或模板,對文本的情感傾向性進行分析。例如,Nasukawa等借助一個句法剖析其進行語義分析并且取得了較高的準(zhǔn)確率。Wilson開創(chuàng)了在短語層面進行主觀性分析的研究工作,在他們將文檔按特征分為詞匯特征、修飾特征、句子特征、結(jié)構(gòu)特征和文檔特征五個類別,基于這五個特征集合構(gòu)造了一個分類器,在細(xì)粒度主觀性分析任務(wù)中完成得很好。劉鴻宇等通過分析情感劇舉行,歸納相應(yīng)的規(guī)則進行傾向性的判斷?;谡Z義理解和句法分析方法的準(zhǔn)確率和召回率較高,但定義推理規(guī)則需要花費成本較高。3.1基于知識規(guī)則方法基于知識的規(guī)則方法在小規(guī)模測試時效果較好,速度快。但是,人為編寫規(guī)則需要語言專家對語言規(guī)則進行升入的理解,在此基礎(chǔ)上編寫規(guī)則,構(gòu)造規(guī)則對語言知識要求較高,需要很大的人力、財力。另外,規(guī)則較多時還會引起規(guī)則之間的沖突,各語言間移植困難、通用性不強。3.2基于機器學(xué)習(xí)的方法雙擊添加標(biāo)題文字主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進行訓(xùn)練和分類的問題今年來模式識別和機器學(xué)習(xí)領(lǐng)域研究的重點問題,是監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法對減少標(biāo)注代價,提高機器學(xué)習(xí)性能具有非常重大的實際意義機器學(xué)習(xí)領(lǐng)域
半監(jiān)督學(xué)習(xí)semi-supervisedlearning
監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)
3.2基于機器學(xué)習(xí)的方法通常使用支持向量機(supportvectormachines,SVM)、隱馬爾可夫模型(hiddenmarkovmodel,HMM)最大熵(ME)等回歸方法、序列標(biāo)注方法進行在線評論信息挖掘。Akshay和Durant使用SVM進行情感分類。Pang等在2002年使用包括樸素貝葉斯、最大熵和SVM等多種機器學(xué)習(xí)方法,使用文本分類中常用的unigram(單個word)、bigram(雙word)和詞性等作為基本特征對電影評論進行了分類。Sakvetti等采用隱馬爾可夫模型結(jié)合詞性特征,對電影評論和產(chǎn)品評論進行分類。McDonald等把句子的褒貶標(biāo)記看作一個情感劉問題,并利用條件隨機場(conditionalrandomfields,CRFs)模型來給篇章中的每個句子打分,把句子級的褒貶標(biāo)記和章篇級的褒貶標(biāo)記放到一個圖模型下求全局最優(yōu),該方法不僅考慮了句子的上下文關(guān)系,并且考慮了篇章的整體情感傾向性。3.2基于機器學(xué)習(xí)的方法線性CRFs模型用于傾向性分析沒有考慮褒貶標(biāo)記間的層級關(guān)系以及所包含的冗余信息,例如,強烈褒義和一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024招標(biāo)合同委托書格式
- 2024污水處理特許經(jīng)營權(quán)轉(zhuǎn)讓合同
- 2024房地產(chǎn)抵押反擔(dān)保合同范本
- 2024大型購物中心建設(shè)改造合同
- 2024年度智能家居產(chǎn)品設(shè)計與生產(chǎn)合同
- 2024專項資金借款合同書
- 2024技術(shù)機密保密協(xié)議書模板
- 企業(yè)股份制轉(zhuǎn)型發(fā)起人合作協(xié)議
- 業(yè)務(wù)經(jīng)理聘請協(xié)議書范本
- 2024委托代理合同樣書
- 水利工程管理單位定崗標(biāo)準(zhǔn)(試點)
- 《建筑施工技術(shù)》課后習(xí)題答案(大學(xué)期末復(fù)習(xí)資料)
- 公司環(huán)境行政處罰事件處置預(yù)案
- 廣東開放大學(xué)風(fēng)險投資(本2022春)-練習(xí)4答案
- DB65∕T 3253-2020 建筑消防設(shè)施質(zhì)量檢測評定規(guī)程
- 二年級蘇教版數(shù)學(xué)上冊《7的乘法口訣》教案(公開課三稿)
- (完整PPT)半導(dǎo)體物理與器件物理課件
- ASTM B366 B366M-20 工廠制造的變形鎳和鎳合金配件標(biāo)準(zhǔn)規(guī)范
- JIS G4304-2021 熱軋不銹鋼板材、薄板材和帶材
- 2022年中級經(jīng)濟師-人力資源管理專業(yè)押題模擬試卷3套及答案解析
- 小學(xué)綜合實踐活動《認(rèn)識校園植物》優(yōu)秀PPT課件
評論
0/150
提交評論