




已閱讀5頁,還剩69頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
碩士學(xué)位論文突發(fā)公共事件網(wǎng)絡(luò)在線評論情緒傾向性研究study on sentiment classification for online news comments of public emergenciesa thesis submitted toxian jiaotong universityin partial fulfillment of the requirementfor the degree ofmaster of engineering sciencebychengwei li(control science and engineering)supervisor: prof. qinke pengmay 2009摘 要論文題目:突發(fā)公共事件網(wǎng)絡(luò)在線評論情緒傾向性研究學(xué)科專業(yè):控制科學(xué)與工程申請人:李成偉指導(dǎo)教師:彭勤科 教授摘 要隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)媒體已經(jīng)成為突發(fā)公共事件信息傳播的重要渠道,網(wǎng)絡(luò)輿論成為突發(fā)公共事件應(yīng)急管理研究的熱點問題。網(wǎng)民發(fā)表的大量評論信息反映了評論者對突發(fā)公共事件的直接反應(yīng)和傾向性,對其研究是突發(fā)公共事件信息分析的重要方面。本文針對突發(fā)公共事件的網(wǎng)絡(luò)評論文本的特點,研究評論文本情緒傾向性分類問題,主要工作如下:1 提出評論文本中情緒詞的情緒傾向性分類算法hal-ii。首先研究語言類比超空間hal的生成算法和空間中概念的信息推理算法,然后在此基礎(chǔ)上,hal-ii以情緒詞與兩類情緒種子詞之間信息推理隸屬度為依據(jù),計算情緒詞的情緒強度,對其分類。與基于知網(wǎng)hownet的語義相似度算法hownet-so比較, hal-ii具有較高的準確率。2 提出基于hal空間信息推理的評論文本情緒傾向性分類算法hal-so。該算法首先將中文詞典與hal空間結(jié)合,增強hal空間的語義解釋準確性,然后從評論文本中抽取特殊模式的短語,應(yīng)用概念組合算法,將模式化的短語組合成概念,從而將評論文本表達為概念序列,最后利用基于hal空間的信息推理算法,對評論文本進行傾向性分類。與tc、樸素貝葉斯算法和基于情緒修飾詞的svm算法的分類結(jié)果比較,本文使用的基于hal空間的信息推理算法hal-so具有較高的準確率和召回率。3 針對突發(fā)公共事件評論數(shù)據(jù)海量的特點,給出了情緒傾向性分類算法hal-so的并行方案,并給出在proactive的master/worker框架下的實現(xiàn)方案。4 網(wǎng)絡(luò)評論情緒分析平臺的構(gòu)建。首先完成了軟件平臺的功能需求分析和模塊設(shè)計,其次在eclipse java下,開發(fā)了“網(wǎng)絡(luò)評論情緒分析平臺”。關(guān) 鍵 詞:突發(fā)公共事件;情緒傾向性;語言類比超空間;網(wǎng)絡(luò)評論;短語模式論文類型:應(yīng)用基礎(chǔ)i本研究得到國家自然科學(xué)基金項目(no.60774086)資助abstracttitle: study on sentiment classification for online news comments of public emergenciesspeciality:control science and engineeringapplicant:chengwei lisupervisor:prof. qinke pengabstractwith the rapid development of informatin technology and extensive prevalence of internet, internet media has ascended as an important way to propagate information of public emergencies so that research on internet opinon has become a hot field in the study of public emergency response and management. huge amounts of comments posted on internet portals are direct reaction of netizens and reflect their opinons and attitueds toward related aspects of public emergencies, and research on these comments constitues an important branch of information analysis for public emergency. so catering to the new charatristics of commentary text of public emergecy, this thesis devotes to the sentiment classification of comments, and main works can be summarized as following:1 propose a classification algorithm hal-ii for sentimental words in comment text. firstly, construction method of hyperspace analogue to language(hal) and information inference algorithm are introduced and then according to information inference degrees between sentimental words and those of sentimenat seed sets, hal-ii calculate sentiment strength of words in question and classify them. compared to algorithm hownet-so based on semnatic similarity of hownet, hal-ii reports higher accuracy.2 propose a sentimental classification algorithm hal-so for commentary text. hal-so first integerates hal with a chinese dictionary to enhance its senmantic accuracy, then extracts phrases which match predefined patterns and blends the words in the extracted phrases into one conception so that a piece of comment text can be converted to a sequence of conceptions whose sentimental orientation can be calculated by the information inference algorithm. compared with results of tc, bayes model and valence-shifter svm, hal-so poses higher precision and recall rates.3 to timely process the public emergency comments of massive amounts, this thesis provides a parallel computing solution for the hal-so sentimet classification algorithm and proposes an implemental scheme based on master/worker framework of proactive.4 build of a software platform for sentiment analysis of online comments. firstly analysis of functional requriements and modules design of the platform are carried out and then using eclipse java, the “platform for sentiment analysis of comments” is built.key words: public emergencies; sentiment orientation; hyperspace analogue to language; phrase patterntype of thesis: application fundamentalsiiithis research was supported by national natural science foundation of china (no.60774086).目 錄緒論v目 錄目 錄1 緒論11.1 研究背景與意義11.1.1 互聯(lián)網(wǎng)與突發(fā)公共事件信息傳播11.1.2 政府和學(xué)術(shù)界對突發(fā)公共事件的關(guān)注21.2 網(wǎng)絡(luò)在線評論及相關(guān)問題研究現(xiàn)狀31.2.1 網(wǎng)絡(luò)在線評論數(shù)據(jù)抓取31.2.2 中文分詞技術(shù)41.2.3 文本分類技術(shù)51.2.4 情緒相關(guān)問題51.3 本文的章節(jié)安排及內(nèi)容概要72 中文詞語情緒傾向性分類92.1 詞語情緒傾向性概述92.1.1 情緒詞的傾向性92.1.2 情緒詞的研究現(xiàn)狀102.2 知網(wǎng)(hownet)與語義相似度計算112.2.1 知網(wǎng)概述112.2.2 義原樹與詞語相似度112.3 語言類比超空間hal與信息推理142.3.1 語言類比超空間(hal)概述142.3.2 hal空間的研究現(xiàn)狀142.3.3 hal空間生成算法142.3.4 基于hal空間的信息推理算法162.4 情緒詞傾向性分類算法172.4.1 基于知網(wǎng)語義相似度的分類算法hownet-so182.4.2 基于hal空間信息推理的分類算法182.5 實驗192.5.1 實驗數(shù)據(jù)192.5.2 實驗結(jié)果與分析202.6 本章小結(jié)213 基于情緒傾向性的評論文本分類223.1 評論文本分類223.1.1 文本分類與傾向性分類223.1.2 評價指標233.2 基于情緒修飾詞的分類算法243.2.1 評論文本的表示243.2.2 評論文本分類算法263.3 基于hal空間的分類算法283.3.1 基于hal空間的概念組合283.3.2 評論文本分類算法303.4 hal-so的數(shù)據(jù)并行算法研究323.4.1 proactive并行環(huán)境323.4.2 proactive編程框架333.4.3 hal-so并行方案343.5 實驗結(jié)果與分析343.5.1 數(shù)據(jù)集343.5.2 實驗結(jié)果353.6 本章小結(jié)384 網(wǎng)絡(luò)評論情緒分析軟件平臺的設(shè)計與開發(fā)394.1 軟件系統(tǒng)設(shè)計394.1.1 總體功能需求394.1.2 軟件結(jié)構(gòu)設(shè)計404.2 軟件功能實現(xiàn)454.2.1 語料處理界面464.2.2 hal空間界面464.2.3 傾向性分析界面474.3 事件驅(qū)動的網(wǎng)絡(luò)爬蟲實現(xiàn)484.3.1 ajax對網(wǎng)絡(luò)爬蟲的影響484.3.2 爬蟲方案分析與功能實現(xiàn)494.4 hal-so并行方案實現(xiàn)514.4.1 并行環(huán)境搭建514.4.2 并行方案實現(xiàn)514.5 本章小結(jié)525 總結(jié)與展望535.1 總結(jié)535.2 展望53參考文獻55致 謝58攻讀學(xué)位期間取得的研究成果59聲明contentscontents1 preface11.1 background of public emergency11.1.1 internet and information diffusion of pe11.1.2 attitudes to pe from governments and scholars21.2 related works of online news comments31.2.1 comments retrieve31.2.2 segment of chinese characters41.2.3 text classification51.2.4 related fields of sentiment51.3 brief contents72 classification of chinese words based on sentiment orientation92.1 review of sentiment orientation of words92.1.1 orientation of sentimental words92.1.2 related works of sentimental words102.2 hownet and senmantic similarity of words112.2.1 hownet112.2.2 primitive tree and similairty of words112.3 hyperspace analogue to language and information inference142.3.1 introduction of hal142.3.2 related works of hal142.3.3 construction algorithm of hal142.3.4 information inference based on hal162.4 algorithms of sentimental words classification172.4.1 hownet-so based on senmantic similarity of hownet182.4.2 algorithms based on informantion inference in hal182.5 results192.5.1 datasets192.5.2 results and analysis202.6 summary213 comment text classification based on sentiment orientation223.1 introduction of comment text classification223.1.1 text classification and classification based on orientation223.1.2 evaluation of classification models233.2 classification based on valence shifters243.2.1 representation of comment text243.2.2 classification model263.3 classification algorithms based on hal283.3.1 conception combination in hal283.3.2 comment text classification alogrithm hal-so303.4 parallel solution for hal-so323.4.1 parallel envoirnment of proactive323.4.2 programming framework of proactive333.4.3 parallel solution for hal-so343.5 results and analysis343.5.1 datasets343.5.2 results353.6 summary384 design and development of integrated platform for comment processing394.1 system design of integrated platform394.1.1 analysis of functional requirements394.1.2 model design404.2 system implementation454.2.1 corpus processing function464.2.2 hal function464.2.3 orientation analysis function474.3 design and implementation of event-driven crawlers484.3.1 impact of ajax on crawlers484.3.2 solution analysis and system implementation of crawlers494.4 implementation of parallel hal-so514.4.1 construction of parallel environment514.4.2 parallel implementation 514.5 summary525 conclusions and suggestions535.1 conclusions535.2 suggestions53references55acknowledgements58achievements59declaration章的mathtype的章標記(打印前將其字體顏色變?yōu)榘咨?,在打印預(yù)覽中看不見即可):vii4 網(wǎng)絡(luò)評論情緒分析軟件平臺的設(shè)計與開發(fā)1 緒論1.1 研究背景與意義在當(dāng)今信息時代,隨著經(jīng)濟全球化和信息技術(shù)的飛速發(fā)展,突發(fā)公共事件發(fā)生的頻率、產(chǎn)生的影響、造成的損失都越來越大,突發(fā)公共事件的應(yīng)急管理已經(jīng)成為國家國民經(jīng)濟和社會管理體系的重要組成部分,其有效運行直接關(guān)系到國民經(jīng)濟的正常運行、社會與政治的穩(wěn)定、以及國家財產(chǎn)的安全。2008年1月中旬至2月上旬,我國南方大部分地區(qū)遭遇罕見低溫雨雪冰凍災(zāi)害,交通運輸嚴重受阻,電力設(shè)施損毀嚴重,群眾生產(chǎn)生活受到嚴重影響。2008年3月14日,拉薩發(fā)生“314”打砸搶燒暴力犯罪事件,給當(dāng)?shù)厝嗣袢罕娚敭a(chǎn)造成重大損失。2008年4月,北京奧運會火炬在多個歐洲城市傳遞時受阻。2008年5月12日14時28分,四川汶川發(fā)生里氏8.0級特大地震,造成 69227名同胞遇難。2008年9月,三鹿奶粉事件引發(fā)社會對食品安全高度關(guān)注。2008年9月,伴隨著多家華爾街金融巨頭紛紛倒下,次貸危機引發(fā)了全球性金融危機,對我國出口與其他行業(yè)造成了巨大沖擊。其他如“躲貓貓”、“虎照”和“楊佳襲警案”等突發(fā)性公共事件對我國社會與經(jīng)濟發(fā)展發(fā)生了深遠的影響,使得政府和學(xué)術(shù)界深感突發(fā)公共事件應(yīng)急管理體系建設(shè)及其研究的緊迫性1。1.1.1 互聯(lián)網(wǎng)與突發(fā)公共事件信息傳播突發(fā)公共事件的信息傳播、信息分析、和信息管理對突發(fā)公共事件應(yīng)急管理具有重要的作用23。在突發(fā)公共事件的傳播擴散過程中,突發(fā)公共事件信息對民眾的風(fēng)險認知、心理和行為變化以及社會輿論會產(chǎn)生巨大影響,管理不當(dāng)極易引起輿論失控,從而導(dǎo)致社會恐慌和不安定,擴大事件破壞程度,危及全社會的政治經(jīng)濟生活4。近年來,互聯(lián)網(wǎng)的普及和多種網(wǎng)絡(luò)媒體(bbs,blog,wiki)的產(chǎn)生使網(wǎng)絡(luò)媒體成為突發(fā)公共事件信息傳播的重要渠道,網(wǎng)絡(luò)媒體對社會的影響力大大提高,根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(cnnic)2009年1月發(fā)布的第23次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告5,截至2008年底,我國互聯(lián)網(wǎng)普及率以22.6%的比例首次超過21.9%的全球平均水平,見圖 11。我國網(wǎng)民數(shù)達到2.98億,其中,農(nóng)村網(wǎng)民規(guī)模達到8460萬,增長率超過60%,城鄉(xiāng)差距有望逐步縮小。同時,國家cn域名數(shù)達1357.2萬,使用手機上網(wǎng)的網(wǎng)民較2007年翻了一番還多,達到1.17億。圖 11 中國網(wǎng)民數(shù)量(來自cnnic的報告,2009.1)網(wǎng)絡(luò)媒體地位的快速提高也引起了政府的高度重視,胡錦濤主席2007年1月23日下午在主持中共中央政治局第三十八次集體學(xué)習(xí)時強調(diào),要以創(chuàng)新的精神加強網(wǎng)絡(luò)文化建設(shè)和管理6。2008年6月20日,胡錦濤主席在人民網(wǎng)強國論壇首次與普通網(wǎng)民在線交流。2009年2月28日,溫家寶總理與網(wǎng)友在線交流并接受了中國政府網(wǎng)和新華網(wǎng)的聯(lián)合專訪。全國各部門、省市領(lǐng)導(dǎo)人也不斷通過網(wǎng)絡(luò)與民眾進行在線交流。這些都顯示出中國領(lǐng)導(dǎo)層對互聯(lián)網(wǎng)的重視,并通過其了解民意,匯集民智。2009年2月19日,云南省官方邀網(wǎng)友調(diào)查“躲貓貓”事件,顯示出了網(wǎng)絡(luò)媒體在信息透明化,提高政府公信力中起到的作用越來越得到政府部門的認同。而網(wǎng)絡(luò)輿情所扮演的角色也越來越豐富,對社會上重大事態(tài)發(fā)展產(chǎn)生巨大影響,為各級政府領(lǐng)導(dǎo)決策提供參考。對突發(fā)公共事件信息的管理而言,網(wǎng)絡(luò)媒體已經(jīng)成為突發(fā)公共事件信息傳播的重要渠道,而網(wǎng)絡(luò)輿情本身所存在的一些偏差,如易情緒化,存在一些謠言,容易被敵對分子利用等,這使得網(wǎng)絡(luò)輿情容易被誤導(dǎo)和激化。因此,網(wǎng)絡(luò)中突發(fā)公共事件信息的獲取與分析是突發(fā)公共事件應(yīng)急管理研究的重要方向78。1.1.2 政府和學(xué)術(shù)界對突發(fā)公共事件的關(guān)注 我國政府為了提高其保障公共安全和處置突發(fā)公共事件的能力,最大程度地預(yù)防和減少突發(fā)公共事件及其造成的損害,保障公眾的生命財產(chǎn)安全,維護國家安全和社會穩(wěn)定,促進經(jīng)濟社會全面、協(xié)調(diào)、可持續(xù)發(fā)展,國務(wù)院于2006年1月8日發(fā)布了國家突發(fā)公共事件總體應(yīng)急預(yù)案,明確了各類突發(fā)公共事件分級分類和預(yù)案框架體系,規(guī)定了國務(wù)院應(yīng)對特別重大突發(fā)公共事件的組織體系、工作機制等內(nèi)容9。2009年國家自然基金重大研究計劃10“非常規(guī)突發(fā)事件應(yīng)急管理研究”中,以非常規(guī)突發(fā)事件應(yīng)急管理為研究對象,充分發(fā)揮管理科學(xué)、信息科學(xué)、生命科學(xué)等多學(xué)科合作研究的優(yōu)勢,著重研究非常規(guī)突發(fā)事件的信息處理與演化規(guī)律建模,非常規(guī)突發(fā)事件的應(yīng)急決策理論,緊急狀態(tài)下個體和群體的心理反應(yīng)與行為規(guī)律。該計劃擬在非常規(guī)突發(fā)事件的特殊約束條件下,通過對相關(guān)多學(xué)科的觀測、實驗和理論創(chuàng)新與綜合集成,形成對非常規(guī)突發(fā)事件應(yīng)急管理的核心環(huán)節(jié)監(jiān)測預(yù)警與應(yīng)對決策的客觀規(guī)律的深刻科學(xué)認識,并提供科學(xué)方法;構(gòu)建“情景-應(yīng)對”型非常規(guī)突發(fā)事件應(yīng)急管理的理論體系,增強應(yīng)急管理科技的自主創(chuàng)新能力;提高國家應(yīng)急管理體系(包括應(yīng)急平臺/預(yù)案體系)的科學(xué)性,為國家科學(xué)、高效、有序應(yīng)對非常規(guī)突發(fā)事件提供決策參考;構(gòu)建應(yīng)急管理交叉學(xué)科,培養(yǎng)應(yīng)急管理創(chuàng)新型人才,在國際應(yīng)急管理科學(xué)領(lǐng)域居于重要地位。1.2 網(wǎng)絡(luò)在線評論及相關(guān)問題研究現(xiàn)狀網(wǎng)絡(luò)評論文本與傳統(tǒng)文本不同,其長度短,而且沒有規(guī)范的語法,國際上把這類文本稱為新型文本11,這些評論的特點是反應(yīng)快,內(nèi)容短小精悍,口語化且有獨特的非正規(guī)詞語,目前,對評論文本的研究主要涉及到評論數(shù)據(jù)抓取、中文分詞、文本情感傾向性識別、評論對象識別等。1.2.1 網(wǎng)絡(luò)在線評論數(shù)據(jù)抓取由于突發(fā)公共事件具有突發(fā)性、不確定性、威脅性、緊迫性和影響廣泛性,所以網(wǎng)絡(luò)中往往存在大量從不同視角的報道、分析和評論,這些報道、分析和評論被湮沒在海量的網(wǎng)絡(luò)信息中,并且以分散形式存在于不同的新聞網(wǎng)頁、新聞?wù)搲?、blog及其相關(guān)的新聞評論跟帖中。對這些數(shù)據(jù)的獲取主要依靠網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲,又稱robots、spiders和wanderers,幾乎與互聯(lián)網(wǎng)同時出現(xiàn),它本質(zhì)上是一個自動提取網(wǎng)頁的程序,是搜索引擎的重要組成部分 。第一網(wǎng)絡(luò)爬蟲程序是matthew gray于1993年創(chuàng)作的wanderer12。當(dāng)前開源網(wǎng)絡(luò)爬蟲主要有weblech、j-spider、heritrix和nutch等,商業(yè)爬蟲有百度的baiduspider、yahoo的slurp3.0和谷歌的googlebot。圖 12 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)圖這些爬蟲結(jié)構(gòu)如圖1-2所示,它們工作的基礎(chǔ)是url,只能抓取具有具體url地址的web頁面。其缺點是無法抓取基于ajax技術(shù)的網(wǎng)站。因為ajax網(wǎng)站,采用javascript驅(qū)動的異步請求/響應(yīng)機制,根據(jù)用戶需求和相關(guān)事件觸發(fā),對web頁面的dom結(jié)構(gòu)進行大量甚至全部變動,導(dǎo)致了具有相同url地址的web頁面包含完全不同的頁面內(nèi)容。目前主要新聞門戶網(wǎng)站的新聞評論頁面都采用ajax技術(shù)實現(xiàn),如新浪和騰訊等。這些評論頁面,首先加載頁面框架,然后根據(jù)用戶的選擇,觸發(fā)異步傳輸事件,載入評論內(nèi)容。因此,對于突發(fā)公共事件網(wǎng)絡(luò)評論的抓取,需要能夠抓取動態(tài)頁面內(nèi)容的專用網(wǎng)絡(luò)爬蟲,本文將在這一方面進行研究。1.2.2 中文分詞技術(shù)分詞是中文信息處理的基礎(chǔ),在漢語文木分類、文獻標引、智能檢索、自然語言理解與處理等應(yīng)用中,首先都要對中文文木進行分詞處理13。漢語自動分詞系統(tǒng)的實現(xiàn)及效果依賴于分詞理論與方法14。目前分詞的基本算法主要有最長匹配法、最少分詞法、基于統(tǒng)計語言模型分詞法和基于隱馬爾科夫模型的分詞方法15。其中最長匹配算法屬于有詞表切分,也即機械切分,分為正向最長匹配算法 (fmm或mm),逆向最長匹配算法(bmm或rmm),分詞速度快,但是處理歧義切分以及未登錄詞識別的能力很有限;最少分詞法的切分原則是切分結(jié)果中包含的詞數(shù)最少,符合漢語自身規(guī)律;需要的語言資源(即分詞詞表)也不多,但是不能有效地解決歧義切分以及未登錄詞識別問題;基于統(tǒng)計語言模型的分詞法是利用字與字之間以及詞與詞之間的統(tǒng)計概率作為分詞的依據(jù),能夠識別未登錄詞,但是模型計算量較大。基于隱馬爾科夫模型的分詞方法具備較強的歧義處理能力,算法簡單,易于實現(xiàn),執(zhí)行效率較高,但是不易于融合更多的語言信息,對于某些復(fù)雜的問題處理不好。當(dāng)前,對分詞算法的進一步研究方向是基于語言理解的分詞方法16,即以人工智能學(xué)科為基礎(chǔ)。主要有基于心理學(xué)的符號處理方法和基于生理學(xué)的模擬方法。前者模擬人腦的功能,將自動分詞過程看作是基于知識的邏輯推理過程,用知識推理與語法分析替代傳統(tǒng)的“機械匹配分詞十歧義,校正”的過程。后者將人工神經(jīng)網(wǎng)絡(luò)基本原理應(yīng)用于計算機漢語分詞,分詞知識以統(tǒng)一的“權(quán)重”形式表示,以漢字為基本處理單元,分詞網(wǎng)絡(luò)動態(tài)生成,在結(jié)構(gòu)與功能上使網(wǎng)絡(luò)推理機與知識庫完全分離,相互獨立,互不影響。目前,已有的分詞軟件主要有中科ictclas、海量分詞、清華大學(xué)的segtag系統(tǒng)、復(fù)旦分詞系統(tǒng)、哈工大統(tǒng)計分詞系和東北大學(xué)的neucsp等,其中ictcals的分詞系統(tǒng)17具有中文分詞、詞性標注、未登錄詞識別功能,詞性標注的一體化;未登錄詞與普通詞處理的一體化;評估體系一體化?;舅枷?采取hmm模型,建立切分詞圖。在詞語粗分階段,先得出n個概率最大的切分結(jié)果。然后,利用角色標注方法識別未登錄詞,并計算其概率,將未登錄詞加入到切分詞圖中,之后視它為普通詞處理,最終進行動態(tài)規(guī)劃優(yōu)選出n個最大概率切分標注結(jié)果。其分詞速度單機996kb/s,分詞精度可達98.45%。1.2.3 文本分類技術(shù)文本分類(text classification)技術(shù)主要任務(wù)是在預(yù)先給定的類別標記(label)集合下,根據(jù)文本內(nèi)容判定未標定文本的類別。文本分類在自然語言處理、信息管理和內(nèi)容信息過濾等領(lǐng)域都有著廣泛的應(yīng)用。20世紀90年代發(fā)展起來的基于機器學(xué)習(xí)的文本分類方法,更注重分類器的模型自動挖掘和生成,以及動態(tài)優(yōu)化能力,在分類效果和靈活性上都比之前基于知識工程和專家系統(tǒng)的文本分類模式有所突破,成為相關(guān)領(lǐng)域研究和應(yīng)用的經(jīng)典范例18?;跈C器學(xué)習(xí)文本分類的基礎(chǔ)技術(shù)由文本表示(representation)、分類方法及效果(effectiveness)評估3部分組成。sebastiani總結(jié)了文本分類發(fā)展歷程及主要技術(shù)方法30,文本分類要點包括:(1) 文本向量空間表示模型(vsm),以及特征選擇(selection)與特征提取(extraction)兩種表示空間降維策略,包括2、ig、mi、or等用于特征過濾的顯著性統(tǒng)計量、項聚類和隱含語義索引(lsi)等特征提取方法;(2) 分類模型,即分類器的歸納構(gòu)造或模型的挖掘?qū)W習(xí)過程;(3) 分類效果評估指標,如準確率(precision)、召回率(recall)、f(常用f1)和精度(accuracy)等。近年來,將文本簡化為所謂的bow(bag of words),在特征處理和統(tǒng)計學(xué)習(xí)算法的基礎(chǔ)上獲得對文本語義內(nèi)容及類別信息的估計與預(yù)測,已經(jīng)成為文本分類的標準模式。通過統(tǒng)計理論和語言學(xué)(linguistics)兩種途徑進行的文本表示和分類模型的研究也得到進一步拓寬或發(fā)展,相關(guān)領(lǐng)域的技術(shù)也在文本分類中得到新的應(yīng)用19。當(dāng)前,用于文本分類的機器學(xué)習(xí)算法主要有支持向量機(support vector machines, svm)、樸素貝葉斯模型和決策樹等,這些算法雖然較好地解決大部分具有數(shù)據(jù)量相對較小、標注比較完整及數(shù)據(jù)分布相對均勻等特點的問題和應(yīng)用。但是,對于海量的網(wǎng)絡(luò)文本,大規(guī)模應(yīng)用仍受到很多問題的困擾,其主要原因是20:(1) 大規(guī)模的類別體系給分類器訓(xùn)練帶來擴展性的困難;(2) 建立分類器時所獲得的樣本相對于海量的未知數(shù)據(jù)非常有限,模擬樣本的空間分布變得困難,這可能帶來過擬合(overfitting)及數(shù)據(jù)偏斜的問題;(3) 文本和類別的更新頻繁,在力求對每個類別獲得更多的樣本時,存在標注瓶頸的問題;(4) 類別間的關(guān)系也更加復(fù)雜,需要有更好的類別組織方法;(5) web文本是一種半結(jié)構(gòu)化(semi-structured)的數(shù)據(jù),其結(jié)構(gòu)信息(如鏈接關(guān)系、主題等)可能對分類提供某些幫助。1.2.4 情緒相關(guān)問題在情緒的相關(guān)研究中,主要涉及到心理學(xué)上情緒的定義、情緒識別、情緒分析和主觀性分析等,本節(jié)對這幾個方面的研究現(xiàn)狀進行概述。1) 心理學(xué)上關(guān)于情緒的定義研究文本中所蘊含的情緒,其首要問題就是要選擇何時的情緒類別。本節(jié)討論心理學(xué)上兩個主要的情緒模型:認知情緒結(jié)構(gòu)21和2-因素情緒結(jié)構(gòu)22。認知情緒結(jié)構(gòu)(cognitive structure of emtions)模型認為情緒是一種對事件(高興vs 不悅)、人物(贊成 vs 支持)和事物(喜歡 vs 厭惡)的有價反應(yīng)(valence reaction)。對事件的反應(yīng)可以分為三類:涉及命運的(高興、痛恨,幸災(zāi)樂禍和憐憫),涉及前景的(滿足,害怕,寬慰和失望)和涉及個人幸福的(喜悅和痛苦)。對人物的反應(yīng)包括對自己的(驕傲和羞恥)以及對他人的(羨慕和責(zé)備)。對物體的反應(yīng)是一定程度上的喜歡和厭惡。該模型還描述了許多能夠影響有價反應(yīng)強度的變量,而且每種情緒的強度依據(jù)其定義的變量而變化。 2-因素情緒結(jié)構(gòu)模型將情緒分為積極情緒(positive affect)和消極情緒(negative affect),并用兩個維度來描述。對于積極情緒,其維度范圍“高積極”到“低積極”,比如“從興高采烈狀態(tài)”到“昏昏欲睡狀態(tài)”;對于消極情緒,其維度范圍為“高消極”到“低消極”,比如從“害怕狀態(tài)”到“停滯狀態(tài)”。該模型進一步引申出pleasantness和engagement維度,它們是積極情緒和消極情緒維度的組合,如圖 13所示,其中pleasantness維度是“高積極”和“低消極”的組合。圖 13 2-因素情緒結(jié)構(gòu)圖2) 情緒識別當(dāng)前,主要利用情緒的先驗知識來識別文本中的情緒。由于情緒在情緒類別及表達情緒的詞語本身固有的模糊性,一些學(xué)者嘗試用模糊邏輯來研究情緒23,如subasic和huettner。他們基于語言學(xué)家的主觀判斷構(gòu)建了一個情緒詞典,詞典的每個條目包含5個元素:詞語本身、詞性、情緒類別、向心性和強度。其中向心性表示該詞語屬于某類情緒類別的程度,而強度則表示詞語能夠表達其情緒類別的強弱程度。每個詞語根據(jù)其不同的詞性和情緒類別會存在多個條目。grefenstette等繼續(xù)擴充該情緒詞典24。他們利用turney25提出的逐點互信息(so-pmi-ir)方法驗證現(xiàn)有詞典并從因特網(wǎng)上挖掘新詞。然后基于情緒詞典,他們生成了一個包含類別程度的情緒同義詞模糊詞典。對于文本情緒分類,首先根據(jù)情緒詞典,基于文本中詞語的情緒向心性和強度,利用模糊邏輯來識別其類別。該方法只考慮文本中詞語,而忽略了文本的結(jié)構(gòu)信息。polanyi等研究了文本上下文中修飾詞的作用和文本結(jié)構(gòu)對情緒類別識別的影響26。3) 情緒分析當(dāng)前,對文本的情緒分析,主要是依據(jù)其語義極性,判斷文本的總體情緒傾向性,即,對于某個主題或者對象,文本作者的態(tài)度總體上是積極的還是消極的。pang等將本文分類的樸素貝葉斯、最大熵模型和支持向量機模型應(yīng)用于文本情緒的分類27,他們通過人工參與的方式將訓(xùn)練集標注積極和消極兩類,然后從測試集中抽取n-gram特征作為文本的表示,利用特征的出現(xiàn)概念來估計文本的情緒類別。pang等將他們的模型在電影評論數(shù)據(jù)上測試,貝葉斯模型取得了78.7%的準確率,而支持向量機則取得了82.9%的準確率。他們又將文本中客觀性的句子剔除后進行分類,進一步提高了準確率28。盡管他們模型的分類結(jié)果較高,但是其缺點也很明顯,模型的分類依賴于大訓(xùn)練集,而且是領(lǐng)域相關(guān)的。4) 主觀性分析與情緒相關(guān)的另一個研究領(lǐng)域是識別文本中的主觀性語句。riloff和wiebe提出了一種識別主觀語句的自學(xué)習(xí)模型29。該模型首先需要一個未標注的大語料庫和能夠?qū)⑽谋景雌湔Z義傾向性分為積極和消極兩類的高精度分類器。接著,分類器利用主觀性模式將語料庫中的句子分類,并且僅當(dāng)分類結(jié)果具有高可靠性時,才對句子進行標注,否則不標注。然后,利用模式抽取學(xué)習(xí)模型學(xué)習(xí)已標注的句子,生成與主觀性語句統(tǒng)計相關(guān)的模式集合。這些模式集合然后又被分類器當(dāng)作主觀性模式對語料庫中的句子進行再標注,如此循環(huán)。該算取得了71%到85的準確率。另一模型用于主觀性語句識別的是kobayashi等提出的一種半自動模型30,該模型通過查詢語料庫中共現(xiàn)的模式抽取三元組來識別主觀性。三元組包括主觀性、特征詞和意見。他們首先利用一些web文檔、手工標定的共現(xiàn)模式和三元組集合生成初始的候選模式,然后利用這些候選模式從語料庫中抽取新的三元組,并將新的三元組再加入三元組集合,重新抽取候選模式,如此遞歸循環(huán)。最終,與人工標注的主觀性語句集合比較,該模型的的覆蓋率僅在40%左右,他們認為是共現(xiàn)模式數(shù)量的不足才導(dǎo)致如此低的覆蓋率。1.3 本文的章節(jié)安排及內(nèi)容概要本文的工作主要是針對突發(fā)公共事件網(wǎng)絡(luò)評論文本的情緒傾向性分類問題,全文內(nèi)容共分五章:第一章為緒論,主要介紹了當(dāng)前突發(fā)公共事件研究問題的背景,對相關(guān)研究領(lǐng)域主要問題的研究現(xiàn)狀進行總結(jié)。第二章為中文詞語的情緒傾向性研究,首先討論了情緒詞及其傾向性分類問題。然后分析了情緒詞的研究狀況和傾向性分類的主要算法,接著討論了基于知網(wǎng)hownet的語義相似度計算問題和基于hal空間的語義相關(guān)度計算問題,并在此基礎(chǔ)上,給出本文的詞語情緒傾向性分類算法hal-ii。最后,從評論文本中抽取形容詞作為測試集,對本章使用的算法進行測試分析 。第三章討論了評論文本的情緒分類問題。首先分析了評論文本中情緒修飾詞對文本情緒的影響,并研究情緒加強詞、消弱詞和否定詞的特征抽取方案,給出基于情緒修飾詞的評論文本分類算法。然后研究評論文本中短語模式的抽取方案和hal空間中概念的組合算法,提出基于hal空間的評論文本情緒傾向性分類算法hal-so,并研究其數(shù)據(jù)并行方案。最后構(gòu)建了兩個數(shù)據(jù)集,測試本章使用的算法。第四章為第二、三章工作的軟件實現(xiàn),首先,分析軟件系統(tǒng)的功能需求和結(jié)構(gòu)框架,然后對各個模塊進行詳細設(shè)計并介紹功能界面,最后基于proactive并行環(huán)境,實現(xiàn)了評論文本情緒傾向性分類的數(shù)據(jù)并行方案。第五章對全文的研究工作進行了總結(jié),并指出了進一步研究改進的方向592 中文詞語情緒傾向性分類突發(fā)公共事件發(fā)生后,民眾往往使用能夠表達他們內(nèi)心感受的詞語來發(fā)表評論,這些詞語能夠反映民眾為對事件的支持、贊成或者反對的態(tài)度,具有情緒傾向。詞語的情緒傾向,是評論文本傾向性分類的前提條件和根本依據(jù)。本章分別從語義相似度的角度和基于hal空間的信息推理方面研究中文詞語的情緒傾向性。2.1 詞語情緒傾向性概述普通心理學(xué)認為:“情緒是指伴隨著認知和意識過程產(chǎn)生的對外界事物的態(tài)度,是對客觀事物和主體需求之間關(guān)系的反應(yīng)。是以個體的愿望和需要為中介的一種心理活動?!?1在突發(fā)公共事件中,人們對事件的情緒反映主要體現(xiàn)于其發(fā)表的評論文本中。比如,評論1:英勇的孩子!祖國的希望!祝她好運!評論2:沒人性的家伙們,太可惡了!一定要嚴懲不待!這兩條評論是網(wǎng)友分別對于四川5.12地震中幸存著勇于營救他人事跡和不法分子偷竊救災(zāi)物資兩個事件的評論。評論1中“英勇”、“希望”和“好運”等詞反映了網(wǎng)友對該事件贊成和支持的情緒,而評論2中的“沒人性”、“可惡”和“家伙”等則表達了網(wǎng)友對不法分子的憤怒與斥責(zé)。這些詞語是他們內(nèi)心情緒的外在表達,體現(xiàn)了他們對事件的態(tài)度。這樣的詞,人們可以直接用來表達自己的情感:贊成/反對,憤怒/高興,喜歡/討厭等。尤其是當(dāng)人們對某-事物作出評價是,往往可以通過這類詞語鮮明的表達自己的觀點。本文稱這樣的詞為情緒詞(sentiment word)。2.1.1 情緒詞的傾向性情緒詞是人們表達情緒態(tài)度的直接描述工具,如果評論中沒有出現(xiàn)情緒詞,那么可以認為該評論是一般的客觀性描述,不具有情緒傾向,這類文本不屬于本文的研究范疇。當(dāng)然,情緒詞只是表達情緒傾向與態(tài)度的重要元素之一,其他諸如標點符號、語氣詞、上下文語境和修辭等都對評論文本的情緒傾向起到一定的輔助作用。心理學(xué)22研究表明,情緒空間中包含兩個單極的主導(dǎo)維度,即積極情緒(positive affect)和消極情緒(negative affect),二者相互獨立。比如“優(yōu)秀 精英 最好 最佳 幸?!钡葘儆诜e極情緒詞“流氓 虛假 殘酷 變態(tài) 脆弱”等屬于消極情緒詞情緒詞的傾向性一般用兩個維度來表示32,一個是偏離方向(direction),一個偏離強度(strength)。偏離方向指該詞匯表達的意義是屬于積極的還是消極的,在突發(fā)公共事件評論文本中即指一個詞語是贊成的還是反對的。偏離強度指該情緒詞所表達的積極或消極意義的強度,在評論文本中指該詞對事件中相關(guān)元素的贊成/反對或者喜歡/厭惡的強烈程度。以反義詞為例。對于每一對反義詞,雖然它們可以修飾同一事物,但其表達的意義和傾向性是完全相反的。比如優(yōu)和劣,這兩個詞雖然都可以修飾產(chǎn)品的質(zhì)量,但卻反映了評論者對事物完全相反的看法與傾向。對這樣的詞來說,它們具有的情緒傾向是完全相反的。2.1.2 情緒詞的研究現(xiàn)狀目前,針對詞語傾向性的分類方法,一般都是先手工標注一部分典型情緒詞,從而建立一個種子詞集合,然后根據(jù)新詞(極性未知的詞,下同)與情緒詞集合中的元素的某種關(guān)系,計算該新詞的極性方向和強度。hatzivassiloglou和mckeown首先提出了英文形容詞的傾向性問題33。他們首先手工標注一部分形容詞的極性,分別以“”、“”表示積極和消極傾向;然后,根據(jù)句子中的連接詞(and/or/but/either-or/neither-nor),決定其他形容詞的傾向性,比如,w1和w2為同一個句子中出現(xiàn)的形容詞,并且已知w1為積極傾向的,若w2和w1之間出現(xiàn)連接詞“and”或“or”則,記w2也為積極傾向的;若w2和w1之間出現(xiàn)連接詞“but”,則,w2為消極傾向的?;谶@種思想,他們從一大型的未標注的語料庫中抽取具有連詞,并手工標注了657個積極傾向的形容詞和679個消極傾向的形容詞作為種子詞,使用有監(jiān)督的機器學(xué)習(xí)方法對語料庫中抽取的形容詞對進行傾向性判別,準確率達到了78.08%。turney和littman利用altavista搜索引擎提供的near運算符,計算待分類的情緒詞與種子詞集合的逐點互信息(pointwise mutual information, pmi)34。他們共選擇了14個種子詞,如下:積極傾向種子詞sp=good, nice, excellent, positive, fortunate, correct, superior消極傾向種子詞sn=bad, nasty, poor, negative, unfortunate, wrong
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年浙江安吉縣文化旅游投資發(fā)展集團有限公司招聘筆試參考題庫含答案解析
- 湖南省常德市2025年八年級下學(xué)期語文期末試卷及答案
- 2025年中國超薄浮法玻璃項目投資可行性研究報告
- 2025年中國蛹蛋白粘膠長絲織物項目投資可行性研究報告
- 2025年中國苦蕎糖安膠囊市場現(xiàn)狀分析及前景預(yù)測報告
- 2025年中國聚酯白底漆市場現(xiàn)狀分析及前景預(yù)測報告
- 2025年中國羊剪絨沙發(fā)座墊項目投資可行性研究報告
- 2025年中國細絲彎制鉗市場調(diào)查研究報告
- 2025年中國累托石項目投資可行性研究報告
- 2025年中國禮品包裝項目投資可行性研究報告
- 組織學(xué)與胚胎學(xué)-女性生殖系統(tǒng)
- 法律法規(guī)及其他要求更新表
- 22G101系列圖集常用點全解讀
- 北師大版六年級數(shù)學(xué)下冊專項二 圖形與幾何含答案
- 《X線攝影檢查技術(shù)》復(fù)習(xí)考試題庫(帶答案)
- MIDASM32調(diào)音臺培訓(xùn)教程歸納
- 普通地質(zhì)學(xué)教材
- 05G414-5預(yù)應(yīng)力混凝土工字形屋面梁(18m、雙坡)
- 《腦出血的外科治療》
- 六頂思考帽講義
- 光學(xué)玻璃非球面元件模壓過程仿真與實驗
評論
0/150
提交評論