版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
【摘要】近年來,涉農(nóng)網(wǎng)絡(luò)輿情事件突發(fā)、頻發(fā),對農(nóng)業(yè)農(nóng)村經(jīng)濟工作的影響日益深刻。建設(shè)三農(nóng)輿情監(jiān)測平臺,密切關(guān)注“三農(nóng)”網(wǎng)絡(luò)輿情,有利于我們把握規(guī)律、發(fā)現(xiàn)問題、預判動向、有效應(yīng)對,有利于我們搶占輿論制高點、掌握輿論主動權(quán),為農(nóng)業(yè)農(nóng)村經(jīng)濟發(fā)展營造良好的輿論環(huán)境。本文主要分析了輿情系統(tǒng)的背景和發(fā)展現(xiàn)狀,針對三農(nóng)輿情平臺的建設(shè)的架構(gòu)、功能模塊,以及在開發(fā)過程中所涉及到的網(wǎng)絡(luò)爬蟲技術(shù)、中文分詞技術(shù)、文本特征提取技術(shù)、熱詞識別技術(shù)等進行分析和介紹,并通過案例進行分析?!娟P(guān)鍵詞】三農(nóng)輿情監(jiān)測;大數(shù)據(jù);信息采集;熱點詞1.引言隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和信息傳播方式的深刻變革,全社會已置身于包羅萬象、瞬息萬變的網(wǎng)絡(luò)輿論輿情新格局之中。某個突發(fā)事件在網(wǎng)上剛一曝光,即可迅速引爆全國輿論,把地區(qū)性局部性和帶有某種偶然性的問題,變成全民圍觀的公共話題。中央對媒體宣傳和網(wǎng)上輿論工作的一系列部署,表明了中央對營造網(wǎng)絡(luò)好環(huán)境、占領(lǐng)輿論制高點、構(gòu)建媒體新格局、傳播網(wǎng)絡(luò)正能量的高度重視。各級政府部門高度重視網(wǎng)絡(luò)輿情工作,不斷加大工作力度、完善工作手段、探索工作機制。網(wǎng)絡(luò)輿情監(jiān)測平臺在政府部門正確應(yīng)對網(wǎng)絡(luò)輿情、妥善處置突發(fā)事件中發(fā)揮了重要作用,成為政府部門加強網(wǎng)絡(luò)輿情工作的重要抓手。研究在基于主題爬蟲技術(shù)研究的基礎(chǔ)上,實現(xiàn)了三農(nóng)輿情監(jiān)測管理平臺。該平臺一方面提升工作技術(shù)手段以完成當前日益緊迫的輿情監(jiān)測任務(wù),另一方面為全面利用大數(shù)據(jù)技術(shù)開展“三農(nóng)”輿情數(shù)據(jù)測監(jiān)測和分析積累實踐經(jīng)驗。平臺通過監(jiān)控網(wǎng)絡(luò)重要的新聞?wù)军c、新浪微博、微信、重要論壇、博客來發(fā)現(xiàn)輿情信息。對發(fā)現(xiàn)的重大、敏感輿情通過專題進一步跟蹤,通過各種數(shù)據(jù)源進行數(shù)據(jù)補充,為輿情的處置提供一定的依據(jù)。2
研究內(nèi)容一般而言,輿情處理流程如圖1所示,其中輿情系統(tǒng)主要負責發(fā)現(xiàn)重大輿情線索,全局掌控輿情散步、傳播及擴散的態(tài)勢,然后監(jiān)控人員結(jié)合系統(tǒng)進行輔助研判,上報重大的輿情。圖1
三農(nóng)輿情處理流程圍繞輿情處理流程,本著數(shù)據(jù)集中化、統(tǒng)計標準化、流程規(guī)范化、應(yīng)用成熟化的建設(shè)原則,平臺的總體架構(gòu)設(shè)計如圖2,分為數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)可視化呈現(xiàn)四大部分。圖2平臺的總體架構(gòu)為了能夠更好的保證數(shù)據(jù)和網(wǎng)絡(luò)的安全性,對輿情平臺服務(wù)器的使用進行了合理的分區(qū),如圖3所示,主要分為三個部分:采集服務(wù)器、數(shù)據(jù)庫服務(wù)器和web服務(wù)器。數(shù)據(jù)庫服務(wù)器又分為三個存儲庫:原始頁面庫、結(jié)構(gòu)化元數(shù)據(jù)庫和輿情結(jié)果庫。原始頁面庫、結(jié)構(gòu)化元數(shù)據(jù)庫都是離線存儲分析庫,輿情結(jié)果庫是一個在線數(shù)據(jù)庫。數(shù)據(jù)寫入單行延時都要控制在10毫秒內(nèi),讀取高性能要保持在毫秒級別。根據(jù)應(yīng)用需求,輿情結(jié)果可以設(shè)置TTL,只提供近期數(shù)據(jù)的查詢,較老的輿情自動過期刪除。圖3
輿情服務(wù)器部署架構(gòu)采集服務(wù)器主要用來采集平臺所監(jiān)控的站點數(shù)據(jù),將數(shù)據(jù)實時發(fā)布到數(shù)據(jù)庫服務(wù)器中。數(shù)據(jù)庫服務(wù)器用來存儲采集的元數(shù)據(jù),并執(zhí)行內(nèi)容去重、無用信息過濾及關(guān)鍵信息提取等,同時響應(yīng)web管理服務(wù)器的輿情查詢。Web服務(wù)器主要用于部署平臺,為了可以支撐海量數(shù)據(jù)存儲(TB/PB級別),高并發(fā)訪問(十萬TPS~千萬TPS),訪問延時低,數(shù)據(jù)存儲在選型上我們選用了NoSQL來解決海量數(shù)據(jù)的存儲訪問。同時一天內(nèi),不同時間段爬蟲爬下來的網(wǎng)頁數(shù)也會有明顯波峰波谷,所以數(shù)據(jù)庫需要可以彈性擴展和縮容。2.1基于主題的輿情數(shù)據(jù)采集技術(shù)數(shù)據(jù)采集是輿情工作的首要任務(wù),主要包括對主流網(wǎng)絡(luò)媒體、微博、微信、論壇以及博客上涉及涉農(nóng)輿情信息的監(jiān)測和自動抓取。平臺采用主題爬蟲技術(shù)實現(xiàn)了基于主題的輿情數(shù)據(jù)采集。主要原理是在搜索過程中只選擇與三農(nóng)相關(guān)的頁面進行訪問,在遍歷web的時候,根據(jù)一定的網(wǎng)頁分析算法過濾掉與三農(nóng)主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的url隊列。為了保證對監(jiān)控站點的信息采集做到不漏采,平臺采用分布式的消息隊列方式提高采集的并發(fā)度,流程如圖4所示:圖4主題爬蟲的工作流程在輿情數(shù)據(jù)的采集策略上,為了防止對方網(wǎng)站的ip封禁,在進行數(shù)據(jù)采集時增加了ip代理,每次請求均會變化ip,降低網(wǎng)站的ip封禁;對重要的中央媒體、商業(yè)網(wǎng)站、地方重要站點等進行全站配置,并根據(jù)標記的更新頻率調(diào)整采集頻率;為了解決一些沒監(jiān)控站點的信息漏采,通過百度和360等搜索進行所有關(guān)鍵詞的搜索結(jié)果進行采集,并與庫中監(jiān)控數(shù)據(jù)實時對比,來彌補定向監(jiān)控的漏采問題;在采集時隨著采集的數(shù)量越來越大,鏈接在入庫的時候采用BloomFilter算法來提高判重的計算時間。2.2
輿情信息的處理與分析技術(shù)2.2.1網(wǎng)頁去噪網(wǎng)頁是采用html標記的一種半結(jié)構(gòu)化數(shù)據(jù),從網(wǎng)頁標簽中提取正文文本,網(wǎng)頁自動摘要之前就需要進行一次頁面的去噪。尤其是獲取的網(wǎng)頁中存在大量與我們所關(guān)心內(nèi)容無關(guān)的導航條、廣告信息、版權(quán)信息以及調(diào)查問卷等被稱之為“噪音”的內(nèi)容,這些內(nèi)容對于內(nèi)容的提鏈和特征數(shù)據(jù)(比如關(guān)鍵詞、摘要、標題、正文等)的提取會造成很大的干擾,需要在使用前去噪。網(wǎng)頁常見三種去噪方法:基于網(wǎng)頁結(jié)構(gòu)的方法、基于模板的方法和基于可視化的方法。在對現(xiàn)在這三類網(wǎng)頁去噪方法進行了對比分析的基礎(chǔ)上,綜合應(yīng)用這三類方法進行網(wǎng)頁去噪。2.2.2特征提取特征提取主要包括實現(xiàn)半結(jié)構(gòu)化/無結(jié)構(gòu)化網(wǎng)絡(luò)資源的元信息抽取,針對新聞、論壇、博客等數(shù)據(jù)源,實現(xiàn)標題、日期、作者、來源等要素全自動數(shù)據(jù)抽取實現(xiàn)社會網(wǎng)絡(luò)中用戶訪問行為的要素分析與提取,如點擊量、回復量、訪問,IP、播放量等,實現(xiàn)按天和按時段的增量采集抽取。特征的抽取主要分為兩步:第一步是在分詞的基礎(chǔ)上進行特征選擇,第二步是在特征選擇的基礎(chǔ)上進行特征的二次變換完成抽取過程。本平臺在具體實施的過程中采用N-Gram的算法對輿情信息進行特征提取并計算權(quán)重,然后利用SIPO本體對原始特征進行相應(yīng)的抽取和轉(zhuǎn)換,從而得到一篇文本的特征向量。2.2.3中文分詞在進行文本主題分析之前,需要先利用中文分詞預處理技術(shù)將中文文檔中的內(nèi)容切分成具有明確意義的詞項。常用的分詞算法主要是基于規(guī)則的和基于統(tǒng)計的,目前研究成果和成型的分詞工具很多,比如中科院計算所的NLPIR、ansj分詞器、哈工大的LTP、清華大學的THULAC、斯坦福分詞器、Hanlp分詞器、結(jié)巴分詞、KCWS分詞器、ZPar、IKAnalyzer等,目前這些工具被廣泛的應(yīng)用,應(yīng)用效果也不錯。中文分詞的難點在于分詞的標準、對于待切分字符串的有歧義、對于未收錄的新詞如何處理這三個問題。不論什么樣的分詞方法,優(yōu)秀的詞典必不可少,老的詞典對新的文本進行分詞,就會造成分詞的結(jié)果一團糟。為了節(jié)省存儲空間提高數(shù)據(jù)的采集效率,分詞時會根據(jù)建設(shè)的??吭~庫(主要是語氣組詞、介詞、系動詞、副詞、連詞)進行去噪。2.2.4內(nèi)容去重去重包括網(wǎng)頁抓取時鏈接的去重和正文內(nèi)容相似的去重去除重復信息不僅能夠節(jié)省資源,還能夠給用戶帶來更好的體驗。去重之前有的需要統(tǒng)計相同的一篇文章分別出現(xiàn)在哪些網(wǎng)站上面,總共出現(xiàn)了多少次這些,所以在提交監(jiān)控時也需要讓需要選擇一下是否需要去重,如果用戶需要看重復的內(nèi)容這些就需要保留。關(guān)于網(wǎng)頁去重的中文文獻有很多,綜合起來主要有下面幾種方法:DSC算法(shingle)、DSC-SS算法、I-Match算法、Simhash算法、VSM模型、SCAM算法布爾模型,還有中文特有的特征碼索引方法等。2.2.5主題相關(guān)性分析該模塊主要通過關(guān)鍵詞集的方法來確定主題,首先是將網(wǎng)頁的標題和正文表示成向量的形式,通過中文分詞得到一個主題網(wǎng)頁的向量表示,通過與訓練得到的主題向量進行相關(guān)度比較,按照設(shè)定的主題閾值來判斷當前網(wǎng)頁是否是相關(guān)網(wǎng)頁,其中訓練得到的每個關(guān)鍵詞都擁有指定的權(quán)限值。權(quán)限的設(shè)置方法:手工設(shè)置和特征提取。特征提取是指給定一個和主題有關(guān)的網(wǎng)頁集合,由程序自動提取這些網(wǎng)頁里面共同的特征,并根據(jù)頻率確定權(quán)值。手工設(shè)置的好處是實現(xiàn)簡單,同時人的經(jīng)驗一般比較準確,跟實際情況不會出現(xiàn)大的偏差,缺點是可能有缺漏,權(quán)值的量化定義不夠精確;特征提取的優(yōu)點是權(quán)值量化定義精確,但要求選取用來提取特征的網(wǎng)頁集合必須是很有達標性和全面概括性的,否則就可能出現(xiàn)很大的偏差。本系統(tǒng)根據(jù)實際情況使用手工設(shè)置一組關(guān)鍵詞并分配權(quán)值?!叭r(nóng)”網(wǎng)絡(luò)輿情千頭萬緒、錯綜復雜,應(yīng)結(jié)合輿情平臺的開發(fā),做好“三農(nóng)”網(wǎng)絡(luò)輿情內(nèi)容體系建設(shè),確立重點突出、分類科學的輿情內(nèi)容體系其中,一要做好“三農(nóng)”網(wǎng)絡(luò)輿情關(guān)鍵詞整理、挖掘工作,二要做好“三農(nóng)”網(wǎng)絡(luò)輿情語料庫分類、填充工作,三要針對各省需求做好有針對性的監(jiān)測內(nèi)容匹配工作。對于關(guān)鍵詞的整理,除了結(jié)合長期的工作經(jīng)驗提取人工整理一批外,平臺還以大量的詞句段落作為基礎(chǔ)學習材料,立足于建設(shè)精準的信息清洗能力,快速過濾垃圾信息、排除重復信息,對抓取的信息自動提取摘要、自動生成關(guān)鍵詞,并進行精準的聚類和簡潔的呈現(xiàn),不斷提升信息甄別清洗的效率和分類統(tǒng)計的準度。2.2.6輿情分析輿情分析是建立在信息采集和預處理的基礎(chǔ)上,輿情分析的質(zhì)量和深度直接影響輿情分析結(jié)果的準確度和可信度。2.2.7
自動摘要自動文摘的方法主要分為兩類:extractive和abstractive。前者是目前最主流、應(yīng)用最多、最容易的方法,后者相對來說更有一種真正人工智能的味道。還有另外一種分類方法是,單文檔摘要和多文檔摘要,前者是后者的基礎(chǔ),但后者不只是前者結(jié)果簡單疊加那么簡單。由于本平臺采集的數(shù)據(jù)量較大,為了能夠更快的為每篇文章快速提取摘要,采用了第一種抽取式的方法(TextRank),即通過抽取一篇文檔中的一句或者幾句話來概括一篇文章的核心思想。抽取型文摘,一般分為如下幾個步驟:Step1.預處理:包括編碼轉(zhuǎn)換、斷句等;Step2.特征提?。喝绶衷~、統(tǒng)計詞頻、關(guān)鍵詞抽取、名實體識別、詞語(語句)位置信息、段落結(jié)構(gòu)信息等;Step3.語句權(quán)重計算:權(quán)重的決定因素包括詞語位置(句首)、是否是指示性詞語即第一或者最后這種、是否是名實體、是否在標題中、詞的情感因素、ngram信息等;Step4.按計算權(quán)重對語句排序,根據(jù)比例抽取文摘句;Step5.根據(jù)語句在原文中出現(xiàn)的順序重新排序,并對生成文摘進行潤色,如:指代消解。3
輿情平臺運行實例和結(jié)果分析3.1輿情監(jiān)測數(shù)據(jù)范圍平臺立足于建設(shè)強大的信息抓取能力,針對不同網(wǎng)站平臺的構(gòu)架特點,進行覆蓋全網(wǎng)的深度監(jiān)測,實現(xiàn)可擴展的多通道高效采集技術(shù)為用戶提供監(jiān)控源配置功能,可以對監(jiān)控源的優(yōu)先級進行配置調(diào)整。平臺的監(jiān)測范圍重點包括以下幾種載體:新聞載體:由于新聞網(wǎng)站眾多,為了能夠更好的對站點進行管理和采集,將站點進行了分類:中央媒體:如新華網(wǎng)等,進行全時重點監(jiān)測;商業(yè)門戶:如新浪網(wǎng)、鳳凰網(wǎng)等,進行全時重點監(jiān)測;地方媒體:包括港澳臺媒體,如紅網(wǎng)、大公網(wǎng)等,監(jiān)測范圍延至縣級媒體平臺;國外中文媒體:如聯(lián)合早報網(wǎng)等;行業(yè)網(wǎng)站:如三農(nóng)在線等,關(guān)注一批影響力強、資訊量大的行業(yè)網(wǎng)站。論壇網(wǎng)站:如天涯等,關(guān)注一批網(wǎng)絡(luò)知名度高、網(wǎng)民活躍度高的論壇網(wǎng)站;博客網(wǎng)站:如新浪博客等,建立一批需要常規(guī)監(jiān)測的博主名單;微博網(wǎng)站:如新浪微博等,建立一批需要常規(guī)監(jiān)測的微博大V名單;微信:對微信公眾號的數(shù)據(jù)進行實時的監(jiān)控;視頻:針對廣電媒體等重要的視頻數(shù)據(jù)進行監(jiān)控;App:針對重要的手機app數(shù)據(jù)進行監(jiān)控。3.2熱詞分析熱詞提取對于監(jiān)控和分析農(nóng)業(yè)輿情具有重要意義,目前已有一定研究基礎(chǔ),但仍存在針對性差等問題,無法滿足農(nóng)業(yè)領(lǐng)域不同產(chǎn)業(yè)用戶群的個性化需求。為此,和中國農(nóng)業(yè)大學合作提出一種基于農(nóng)業(yè)網(wǎng)絡(luò)信息分類的熱詞自動提取方法[9],具體的處理流程見圖5。首先采用多標記分類算法對文本語料進行分類,按分類類別構(gòu)建語料庫,然后采用基于信息熵的方法對每個類別分別提取熱詞候選詞,最后采用基于時間變化的方法進行候選詞熱度計算,根據(jù)候選詞熱度排序結(jié)果得到熱詞。本文抽取農(nóng)業(yè)網(wǎng)站上的15354條文本進行實驗。結(jié)果表明,熱詞提取準確率達到90%以上,能夠較高質(zhì)量地提取農(nóng)業(yè)熱詞,為不同農(nóng)業(yè)用戶群體發(fā)現(xiàn)和分析產(chǎn)業(yè)熱點提供幫助。圖5熱詞提取流程圖3.3預警研判3.3.1輿情指數(shù)體系建設(shè)主要是通過對信息的首發(fā)媒體、轉(zhuǎn)載數(shù)量、內(nèi)容主題、跟帖數(shù)量、感情傾向、傳播路徑、演化趨勢等屬性維度進行權(quán)重分配和指標量化,合理設(shè)計、科學建立“三農(nóng)”網(wǎng)絡(luò)輿情指數(shù)指標體系。根據(jù)信息的輿情指數(shù),對信息作出綜合研判分析,為輿情信息預警提供科學依據(jù)。輿情指數(shù)如圖6所示:圖6輿情研判指數(shù)3.3.2關(guān)鍵詞預警:預警規(guī)則:通過設(shè)置預警關(guān)鍵詞,對包含預警關(guān)鍵詞的信息進行預警報告。預警等級:實行三級預警等級,第一級黃色預警信息,即需要關(guān)注的信息;第二級橙色預警信息,即需要深度監(jiān)測的信息;第三級紅色預警信息,即需要應(yīng)急處置的信息。其余未標明顏色的信息為普通信息。預警方式:采取彈窗、短信、郵件等多種方式進行自動預警或者人工預警。3.3.3預警預測根據(jù)歷史輿情事件發(fā)生的規(guī)律,提前預知網(wǎng)絡(luò)輿情轉(zhuǎn)到線下的活動預測的方式有兩種,一種是對歷史數(shù)據(jù)進行擬合得到相應(yīng)的預測模型進行輿情的趨勢預測;另外一種則是對于三農(nóng)上比較具有規(guī)律的輿情進行歷史數(shù)據(jù)的統(tǒng)計分析,分析其規(guī)律數(shù)據(jù),作為政府和企業(yè)決策的基礎(chǔ)。3.3.4熱點識別與追蹤目前主流的熱點追蹤算法都采用文本聚類技術(shù)來實現(xiàn),常見的六大聚類算法為:K-Means聚類、均值漂移聚類、基于密度的聚類方法、用高斯混合模型的最大期望聚類、凝聚層次聚類、圖團體檢測,但是這些基礎(chǔ)的算法在處理大量的網(wǎng)頁時,都很難精準聚合中心結(jié)果,本平臺根據(jù)文章標題自動挖掘熱點關(guān)鍵詞,以關(guān)鍵詞為線索進行話題的聚類,同時采用基于K-Means的增量聚類算法進行文本的聚類,經(jīng)過實驗對比漏報率下降到10.7%,誤報率下降到了0.78%。本平臺上輿情熱點包括三類:1.突
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)控車工入門知識
- 2024甲級資質(zhì)網(wǎng)絡(luò)安全服務(wù)合同
- 2024種子銷售合同
- 二零二五年度戶外廣告牌防雷裝置安裝合同3篇
- 2024行政處罰權(quán)委托與信息共享合作協(xié)議3篇
- 二零二五年度工業(yè)廢氣排放監(jiān)測與鑒定服務(wù)合同標準3篇
- 2025年度會展中心場地租賃及展會組織服務(wù)協(xié)議3篇
- 2025年度杭州生產(chǎn)車間裝飾裝修協(xié)議2篇
- 2024物業(yè)的服務(wù)合同范本
- 二零二五年度手機應(yīng)用廣告嵌入與分成協(xié)議3篇
- 我能作業(yè)更細心(課件)-小學生主題班會二年級
- 江西省上饒市2023-2024學年高一上學期期末教學質(zhì)量測試物理試題(解析版)
- 學生(幼兒)上學放學交通方式情況登記表
- 提高感染性休克集束化治療達標率
- 2023年湖北省武漢市高考數(shù)學一模試卷及答案解析
- 電動自行車換電柜規(guī)劃方案
- 工程變更、工程量簽證、結(jié)算以及零星項目預算程序?qū)嵤┘殑t(試行)
- 中央廣播電視大學畢業(yè)生登記表-8
- 2023年人民日報社校園招聘72人筆試參考題庫(共500題)答案詳解版
- 《焊接常用工具》課件
- 山東師范大學《古代文學專題(一)》期末復習題
評論
0/150
提交評論