下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、意見(jiàn)挖掘研究的目的目前,互聯(lián)網(wǎng)上的信息與日劇增,蘊(yùn)藏著巨大的信息量。但是,要想在很短的時(shí)間內(nèi)獲得人 們對(duì)于諸如人物、事件、傳媒、產(chǎn)品等有價(jià)值的評(píng)價(jià)信息,往往是十分困難的。例如,對(duì)產(chǎn) 品的各種評(píng)價(jià)出現(xiàn)在各大論壇、電子公告板以及門戶網(wǎng)站上,廠商需要了解顧客使用其產(chǎn)品 的反饋意見(jiàn),潛在的購(gòu)買者也需要作出是否購(gòu)買某個(gè)產(chǎn)品的決定。如果采用人工方式對(duì)這浩 如煙海的信息進(jìn)行查詢、統(tǒng)計(jì),顯然是低效和不切合實(shí)際的。面對(duì)這樣的現(xiàn)實(shí)問(wèn)題,意見(jiàn)挖 掘技術(shù)應(yīng)運(yùn)而生。一方面,它基于數(shù)據(jù)挖掘(Data Mining)和文本挖掘(Text Mining)技術(shù), 另一方面,它又具有相當(dāng)?shù)奈谋纠斫?Text U nderstan
2、ding)的能力。所以,它是比文本挖掘 技術(shù)更接近人工智能目標(biāo)的一種新技術(shù)。它與以往的信息抽取(Information Extrac2tion)、 文本分類(Text Classification)和文本摘要(Text Summarization)技術(shù)不同。雖然信息抽 取和意見(jiàn)挖掘都需要深層的語(yǔ)義理解,但信息抽取主要是獲取具體的語(yǔ)言表達(dá)結(jié)構(gòu),如命名 實(shí)體、命名實(shí)體關(guān)系、事件等,這些成分一般為顯式表達(dá)結(jié)構(gòu);而意見(jiàn)挖掘是挖掘意見(jiàn)的元素 和它們之間的關(guān)系,即主題、意見(jiàn)持有者、陳述、情感和它們之間的關(guān)系,這些成分表達(dá)形 式多樣,而且常常不是顯式地、獨(dú)立地表達(dá)。文本分類是在預(yù)定的用戶需求下把文本進(jìn)行分
3、類,并沒(méi)有涉及到深層次的語(yǔ)義理解。文本摘要是用簡(jiǎn)練的語(yǔ)言表達(dá)長(zhǎng)篇文本的中心思想, 但文本中對(duì)事物的具體看法和評(píng)價(jià)則沒(méi)有被清晰地提取出來(lái)。實(shí)際上,意見(jiàn)挖掘技術(shù)彌補(bǔ)了 上述這些技術(shù)的不足,是更具有應(yīng)用價(jià)值的一種新技術(shù)。意見(jiàn)挖掘涉及各個(gè)語(yǔ)言分析層面, 不但涉及到詞匯層(如分詞和詞性標(biāo)注)、句法層(如命名實(shí)體識(shí)別和語(yǔ)法分析)和語(yǔ)義層(如 語(yǔ)義分析),還涉及到篇章層(如跨句的指代消解)。意見(jiàn)挖掘與一些語(yǔ)言技術(shù)有關(guān),例如,信 息檢索、文本分類、信息抽取、自動(dòng)摘要、數(shù)據(jù)融合、問(wèn)答系統(tǒng)、自然語(yǔ)言生成、對(duì)話系統(tǒng)、 機(jī)器翻譯等。意見(jiàn)挖掘技術(shù)可以應(yīng)用于現(xiàn)實(shí)生活中的許多方面,如電子商務(wù)、商業(yè)智能、信 息監(jiān)控、民意調(diào)查
4、、電子學(xué)習(xí)、報(bào)刊編輯、企業(yè)管理等。例如,采用意見(jiàn)挖掘系統(tǒng)從來(lái)自網(wǎng) 上的產(chǎn)品(如筆記本電腦)評(píng)價(jià)意見(jiàn)中快速地獲得意見(jiàn)分類統(tǒng)計(jì)結(jié)果,可以提供給廠商以進(jìn) 一步改進(jìn)產(chǎn)品的質(zhì)量,可以提供給潛在的顧客作為選擇購(gòu)買什么型號(hào)產(chǎn)品的參考,也可以提 供給代銷商作為進(jìn)貨品種和數(shù)量的依據(jù)。(文本意見(jiàn)挖掘綜述姚天 1 ,程希文2,徐飛玉 2,漢思烏思克爾特2,3 ,王睿3中文信息學(xué)報(bào)第22卷 第3期)根據(jù)主題的本體概念和語(yǔ)義傾向使用啟發(fā)式規(guī)則選擇陳述。在此基礎(chǔ)上,使用統(tǒng)一的表示集 成具有情感知識(shí)的語(yǔ)言特征,然后采用樸素貝葉斯分類器分類情感極性。此后,Tsou等人在上述研究工作基礎(chǔ)上對(duì)中國(guó)四地(北京、香港、上海、臺(tái)北)報(bào)
5、刊上有關(guān) 四位政治人物(克里、布什、小泉純一郎、陳水扁)褒貶性的新聞報(bào)道進(jìn)行了分類研究33 。 在研究中,首先通過(guò)標(biāo)記語(yǔ)料庫(kù)獲得文本中的極性元素(Polar Element s),然后主要采用了三 個(gè)衡量指標(biāo),即極性元素的散布(Spread)、極性元素的密度(Density)和極性元素的語(yǔ)義強(qiáng)度 (Intensity)來(lái)對(duì)每個(gè)文本進(jìn)行統(tǒng)計(jì),得出文本貶褒分類和強(qiáng)度大小的結(jié)果。其中對(duì)確定極性 元素之間的關(guān)系雖有所提及,但沒(méi)有深入研究。在BBS文本研究方面,邱立坤等人提出了 一種在BBS環(huán)境下進(jìn)行熱門話題挖掘的算法34 。這種算法在一般文本聚類算法基礎(chǔ)上, 應(yīng)用BBS所特有的點(diǎn)擊數(shù)、回復(fù)數(shù)進(jìn)行熱度排
6、序,然后采用基于特征詞提取的話題歸并, 從而挖掘出最受BBS用戶關(guān)注的熱門話題。【1】文本情感分析歸納為3項(xiàng)主要任務(wù),即情感信息抽取、情感信息分類以及情感信息 的檢索與歸納,評(píng)價(jià)詞語(yǔ)的抽取和判別往往是一個(gè)一體化的工作,主要分為基于語(yǔ)料庫(kù)和基于詞典兩種方法 6基于語(yǔ)料庫(kù)的評(píng)價(jià)詞語(yǔ)抽取和判別主要是利用大語(yǔ)料庫(kù)的統(tǒng)計(jì)特性,觀察一些現(xiàn)象來(lái)挖 掘語(yǔ)料庫(kù)中的評(píng)價(jià)詞語(yǔ)并判斷極性.,基于語(yǔ)料庫(kù)的方法最大的優(yōu)點(diǎn)在于簡(jiǎn)單易行,缺點(diǎn)則在 于可利用的評(píng)論語(yǔ)料庫(kù)有限,同時(shí)評(píng)價(jià)詞語(yǔ)在大語(yǔ)料庫(kù)中的分布等現(xiàn)象并不容易歸納.基于 詞典的評(píng)價(jià)詞語(yǔ)抽取及判別方法主要是使用詞典中的詞語(yǔ)之間的詞義聯(lián)系來(lái)挖掘評(píng)價(jià)詞語(yǔ). 這里的詞典一般是
7、指使用 WordNet或HowNet等.詞典的方法的優(yōu)點(diǎn)在于獲取的評(píng)價(jià)詞 語(yǔ)的規(guī)模非??捎^,但是由于很多詞存在一詞多義現(xiàn)象,構(gòu)建的情感詞典往往含有較多的歧義 詞,如詞語(yǔ)“好”在大多數(shù)情況下表現(xiàn)為“優(yōu)秀”的意思,但在某些情況下扮演修飾成分(如“他 跑得好快啊!” ).此外,還有一部分學(xué)者采用基于圖的方法來(lái)識(shí)別評(píng)價(jià)詞語(yǔ)的極性6,20.具體 來(lái)說(shuō),該方法將要分類的詞語(yǔ)作為圖上的點(diǎn),利用詞語(yǔ)之間的聯(lián)系形成邊來(lái)構(gòu)建圖,繼而采用 各種基于圖的迭代算法(propagation algorithm)來(lái)完成詞語(yǔ)的分類.基于圖的方法是一種新 穎的方法,它可以靈活地將詞語(yǔ)間的各種聯(lián)系作為特征融入圖中,繼而進(jìn)行迭代計(jì)
8、算.然而,尋 找更為有效的詞語(yǔ)間特征以及如何選取圖算法是值得深入研究的問(wèn)題文本情感分析的作用:隨著互聯(lián)網(wǎng)上評(píng)論文本的爆炸式增長(zhǎng),迫切需要計(jì)算機(jī)幫助用戶加工 整理這些情感信息,這使得情感分析研究具有重要的應(yīng)用.下面,本文就情感分析的應(yīng)用現(xiàn)狀 以及應(yīng)用前景進(jìn)行概括介紹.用戶評(píng)論分析與決策輿情監(jiān)控信息預(yù)測(cè)參考文獻(xiàn)【1】文本情感分析 趙妍妍 秦兵,劉挺.Journal of Software, Voi.21, No.8, August 2010,pp.1834-18486 Rao D, Ravichandran D. Semi-Supervised polarity lexicon induction
9、. In: Lascarides A, ed. Proc. of the EACL 2009. Morristown:ACL, 2009. 675-682.詞語(yǔ)情感傾向性識(shí)別*聞 彬,咸 寧 學(xué) 院 學(xué) 報(bào)第30卷第6期 本文將第一節(jié)主要探討詞語(yǔ)傾向性識(shí)別的的研究現(xiàn)狀1國(guó)內(nèi)外研究現(xiàn)狀詞匯傾向性判別是文本傾向性分析的基礎(chǔ).情感詞識(shí)的準(zhǔn)確性直接影響到要素級(jí),篇章級(jí)的傾 向性研究.目前國(guó)內(nèi)外詞匯傾向性研究主要分為兩類統(tǒng)計(jì)方和語(yǔ)義方法統(tǒng)計(jì)方法主要是基于機(jī)器學(xué)習(xí),利用文檔集中詞匯間共現(xiàn)關(guān)系來(lái)計(jì)算詞匯的傾向性.2003年,PeterD.TurnMichaelL.Littman1用的點(diǎn)互信息(PMI-IR)
10、方法利了搜索引擎提供的“NEAR ”操作,來(lái)估計(jì)詞匯與具有強(qiáng)烈向意義的種子詞集合的關(guān)聯(lián)程度以此作為計(jì)算該詞 傾性的依據(jù).同年,Yu和Hatzivassiloglou2挑選出若干極性強(qiáng)的形容詞(情感詞)構(gòu)建一個(gè)種子 詞集合,通過(guò)計(jì)算新和種子集合中的詞的共現(xiàn)概率來(lái)判斷新詞的語(yǔ)義傾向.語(yǔ)義方法主要是基 于一個(gè)現(xiàn)存的本體知識(shí)庫(kù),如英文WordNet和中文的HowNet,通過(guò)計(jì)算待估詞與選定的基詞 的語(yǔ)義距離,進(jìn)而判斷待估詞的傾向性.2002 年,Kps等3正是利用WordNet的同義結(jié)構(gòu)圖計(jì) 算待估詞與所選基準(zhǔn)詞的語(yǔ)義距離來(lái)得到其傾向性,在中文方面,復(fù)旦大學(xué)學(xué)的朱嫣嵐等4 在2006年提出的基于How
11、Net的詞匯語(yǔ)義傾向計(jì)算方法,利用詞語(yǔ)間的相似度來(lái)計(jì)算詞的褒 貶程度.2007年北京大學(xué)的路彬等5采用中文的同義詞詞林來(lái)計(jì)算詞匯褒貶,這種方法前 兩層擴(kuò)展的準(zhǔn)確率非常高.隨著W eb2.0時(shí)代的到來(lái),網(wǎng)絡(luò)成了反映社會(huì)輿情的重要載體之一,越來(lái)越多的人們通過(guò)博 客、論壇以及網(wǎng)站留言板發(fā)表自己對(duì)熱點(diǎn)事件的觀點(diǎn)和看法.對(duì)于某個(gè)熱點(diǎn)事件,如果將其有 關(guān)的網(wǎng)絡(luò)輿情信息加以匯總并且進(jìn)行分析,就可以反應(yīng)出對(duì)于這個(gè)事件民眾所持有的態(tài)度和 觀點(diǎn)的傾向性.這種匯總的網(wǎng)絡(luò)輿情,可以有效地幫助相關(guān)政府職能部門了解民意,進(jìn)而做出 及時(shí)的反饋.本文應(yīng)用觀點(diǎn)挖掘技術(shù)通過(guò)對(duì)新聞網(wǎng)頁(yè)的評(píng)論進(jìn)行收集并進(jìn)行分柝將網(wǎng)民的評(píng) 論匯總成肯
12、定、否定和中性三類,取得了良好的效果.分析評(píng)論中文本的情感傾向性是觀點(diǎn)挖掘的主要任務(wù)之一,目前傾向性的分析主要針對(duì)詞 匯、句子和篇章三個(gè)層面進(jìn)行分析.詞匯的情感分析目前主要有三種方法,一種是基于 WordNet5和 HowNet6這樣的知識(shí)庫(kù),首先選擇兩組具有明顯正向和負(fù)向極性的詞語(yǔ)作為 種子詞,對(duì)于一個(gè)情感傾向未知的詞,計(jì)算這個(gè)詞與兩組種子詞的相似度,與正向種子詞組相 似度高的則判定為正面傾向,反之則判定為負(fù)面傾向.詞匯傾向性分析的另一種方法是無(wú)監(jiān)督 學(xué)習(xí)方法7,這種方法同樣需要先確定兩組等量具有明顯傾向性的種子詞,一組是褒義種子 詞,一組是貶義種子詞.對(duì)于一個(gè)新詞,根據(jù)它和兩組種子詞的緊密
13、程度對(duì)其傾向性進(jìn)行推斷, 緊密程度的判斷是根據(jù)詞語(yǔ)在語(yǔ)料庫(kù)中的共現(xiàn)頻率,稱為點(diǎn)態(tài)互信息量,將詞語(yǔ)與褒義種子詞 的點(diǎn)態(tài)互信息量之和減去與各貶義種子詞的互信息量之和,結(jié)果的正負(fù)即表示詞語(yǔ)的傾向性, 而且結(jié)果的大小還表示了傾向性的強(qiáng)度.這個(gè)方法的點(diǎn)態(tài)互信息量也可以通過(guò)使用搜索引擎 來(lái)計(jì)算,其概率可以通過(guò)搜索引擎返回的Hits值占搜索引擎總的索引頁(yè)面數(shù)的比例來(lái)計(jì)算,因 此無(wú)需語(yǔ)料庫(kù).在英文的應(yīng)用系統(tǒng)的研究上,Bing Liu等學(xué)者研究并開(kāi)發(fā)了 OpinionObserver8,主要針對(duì)商 品評(píng)論做了更深入的分析,突破了僅僅給出篇章總體傾向性的研究,研究了從同一類商品的多 個(gè)評(píng)論中抽取子主題的算法,對(duì)子主題傾向性分析,綜合多個(gè)語(yǔ)篇的分析得出總結(jié)性的結(jié)果, 具有比較實(shí)際的商用價(jià)值.這也是商品
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年綜合商業(yè)體售樓處動(dòng)態(tài)沙盤供應(yīng)協(xié)議版B版
- 2024年門店裝修工程承包合同樣本版B版
- 2024院內(nèi)醫(yī)療廢物焚燒處理設(shè)施改造合同3篇
- 2024年版藥材種子種苗銷售合同3篇
- 2022年運(yùn)城學(xué)院公共課《C語(yǔ)言》科目期末試卷A(有答案)
- 2025年度瓷磚生產(chǎn)節(jié)能減排合同2篇
- 2025年度彩板房租賃與安裝合同范本3篇
- 2024版居家育兒服務(wù)協(xié)議范本:育兒嫂條款一
- 河套學(xué)院《國(guó)際投資與信貸》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度生態(tài)保護(hù)區(qū)拆遷補(bǔ)償及生態(tài)補(bǔ)償協(xié)議范本3篇
- 多旋翼無(wú)人機(jī)駕駛員執(zhí)照(CAAC)備考試題庫(kù)大全-下部分
- 水務(wù)集團(tuán)定崗定員方案范文
- 2024年青海一級(jí)健康管理師高頻核心題庫(kù)300題(含答案詳解)
- 實(shí)際控制人與法人協(xié)議模板
- 期末核心素養(yǎng)測(cè)評(píng)卷2023-2024學(xué)年語(yǔ)文五年級(jí)上冊(cè)+統(tǒng)編版
- 上海八年級(jí)數(shù)學(xué)上期末幾何提優(yōu)題目集錦
- DB32T3494-2019灌漿復(fù)合瀝青路面施工技術(shù)規(guī)范
- 2024年石油石化技能考試-石油鉆井工筆試參考題庫(kù)含答案
- DLT 5175-2021 火力發(fā)電廠熱工開(kāi)關(guān)量和模擬量控制系統(tǒng)設(shè)計(jì)規(guī)程-PDF解密
- 110kV變電站及110kV輸電線路運(yùn)維投標(biāo)技術(shù)方案(第一部分)
- 福建省泉州市晉江市2023屆九年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
評(píng)論
0/150
提交評(píng)論