




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
【摘要】近年來(lái),涉農(nóng)網(wǎng)絡(luò)輿情事件突發(fā)、頻發(fā),對(duì)農(nóng)業(yè)農(nóng)村經(jīng)濟(jì)工作的影響日益深刻。建設(shè)三農(nóng)輿情監(jiān)測(cè)平臺(tái),密切關(guān)注“三農(nóng)”網(wǎng)絡(luò)輿情,有利于我們把握規(guī)律、發(fā)現(xiàn)問(wèn)題、預(yù)判動(dòng)向、有效應(yīng)對(duì),有利于我們搶占輿論制高點(diǎn)、掌握輿論主動(dòng)權(quán),為農(nóng)業(yè)農(nóng)村經(jīng)濟(jì)發(fā)展?fàn)I造良好的輿論環(huán)境。本文主要分析了輿情系統(tǒng)的背景和發(fā)展現(xiàn)狀,針對(duì)三農(nóng)輿情平臺(tái)的建設(shè)的架構(gòu)、功能模塊,以及在開(kāi)發(fā)過(guò)程中所涉及到的網(wǎng)絡(luò)爬蟲技術(shù)、中文分詞技術(shù)、文本特征提取技術(shù)、熱詞識(shí)別技術(shù)等進(jìn)行分析和介紹,并通過(guò)案例進(jìn)行分析。【關(guān)鍵詞】三農(nóng)輿情監(jiān)測(cè);大數(shù)據(jù);信息采集;熱點(diǎn)詞1.引言隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和信息傳播方式的深刻變革,全社會(huì)已置身于包羅萬(wàn)象、瞬息萬(wàn)變的網(wǎng)絡(luò)輿論輿情新格局之中。某個(gè)突發(fā)事件在網(wǎng)上剛一曝光,即可迅速引爆全國(guó)輿論,把地區(qū)性局部性和帶有某種偶然性的問(wèn)題,變成全民圍觀的公共話題。中央對(duì)媒體宣傳和網(wǎng)上輿論工作的一系列部署,表明了中央對(duì)營(yíng)造網(wǎng)絡(luò)好環(huán)境、占領(lǐng)輿論制高點(diǎn)、構(gòu)建媒體新格局、傳播網(wǎng)絡(luò)正能量的高度重視。各級(jí)政府部門高度重視網(wǎng)絡(luò)輿情工作,不斷加大工作力度、完善工作手段、探索工作機(jī)制。網(wǎng)絡(luò)輿情監(jiān)測(cè)平臺(tái)在政府部門正確應(yīng)對(duì)網(wǎng)絡(luò)輿情、妥善處置突發(fā)事件中發(fā)揮了重要作用,成為政府部門加強(qiáng)網(wǎng)絡(luò)輿情工作的重要抓手。研究在基于主題爬蟲技術(shù)研究的基礎(chǔ)上,實(shí)現(xiàn)了三農(nóng)輿情監(jiān)測(cè)管理平臺(tái)。該平臺(tái)一方面提升工作技術(shù)手段以完成當(dāng)前日益緊迫的輿情監(jiān)測(cè)任務(wù),另一方面為全面利用大數(shù)據(jù)技術(shù)開(kāi)展“三農(nóng)”輿情數(shù)據(jù)測(cè)監(jiān)測(cè)和分析積累實(shí)踐經(jīng)驗(yàn)。平臺(tái)通過(guò)監(jiān)控網(wǎng)絡(luò)重要的新聞?wù)军c(diǎn)、新浪微博、微信、重要論壇、博客來(lái)發(fā)現(xiàn)輿情信息。對(duì)發(fā)現(xiàn)的重大、敏感輿情通過(guò)專題進(jìn)一步跟蹤,通過(guò)各種數(shù)據(jù)源進(jìn)行數(shù)據(jù)補(bǔ)充,為輿情的處置提供一定的依據(jù)。2
研究?jī)?nèi)容一般而言,輿情處理流程如圖1所示,其中輿情系統(tǒng)主要負(fù)責(zé)發(fā)現(xiàn)重大輿情線索,全局掌控輿情散步、傳播及擴(kuò)散的態(tài)勢(shì),然后監(jiān)控人員結(jié)合系統(tǒng)進(jìn)行輔助研判,上報(bào)重大的輿情。圖1
三農(nóng)輿情處理流程圍繞輿情處理流程,本著數(shù)據(jù)集中化、統(tǒng)計(jì)標(biāo)準(zhǔn)化、流程規(guī)范化、應(yīng)用成熟化的建設(shè)原則,平臺(tái)的總體架構(gòu)設(shè)計(jì)如圖2,分為數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和數(shù)據(jù)可視化呈現(xiàn)四大部分。圖2平臺(tái)的總體架構(gòu)為了能夠更好的保證數(shù)據(jù)和網(wǎng)絡(luò)的安全性,對(duì)輿情平臺(tái)服務(wù)器的使用進(jìn)行了合理的分區(qū),如圖3所示,主要分為三個(gè)部分:采集服務(wù)器、數(shù)據(jù)庫(kù)服務(wù)器和web服務(wù)器。數(shù)據(jù)庫(kù)服務(wù)器又分為三個(gè)存儲(chǔ)庫(kù):原始頁(yè)面庫(kù)、結(jié)構(gòu)化元數(shù)據(jù)庫(kù)和輿情結(jié)果庫(kù)。原始頁(yè)面庫(kù)、結(jié)構(gòu)化元數(shù)據(jù)庫(kù)都是離線存儲(chǔ)分析庫(kù),輿情結(jié)果庫(kù)是一個(gè)在線數(shù)據(jù)庫(kù)。數(shù)據(jù)寫入單行延時(shí)都要控制在10毫秒內(nèi),讀取高性能要保持在毫秒級(jí)別。根據(jù)應(yīng)用需求,輿情結(jié)果可以設(shè)置TTL,只提供近期數(shù)據(jù)的查詢,較老的輿情自動(dòng)過(guò)期刪除。圖3
輿情服務(wù)器部署架構(gòu)采集服務(wù)器主要用來(lái)采集平臺(tái)所監(jiān)控的站點(diǎn)數(shù)據(jù),將數(shù)據(jù)實(shí)時(shí)發(fā)布到數(shù)據(jù)庫(kù)服務(wù)器中。數(shù)據(jù)庫(kù)服務(wù)器用來(lái)存儲(chǔ)采集的元數(shù)據(jù),并執(zhí)行內(nèi)容去重、無(wú)用信息過(guò)濾及關(guān)鍵信息提取等,同時(shí)響應(yīng)web管理服務(wù)器的輿情查詢。Web服務(wù)器主要用于部署平臺(tái),為了可以支撐海量數(shù)據(jù)存儲(chǔ)(TB/PB級(jí)別),高并發(fā)訪問(wèn)(十萬(wàn)TPS~千萬(wàn)TPS),訪問(wèn)延時(shí)低,數(shù)據(jù)存儲(chǔ)在選型上我們選用了NoSQL來(lái)解決海量數(shù)據(jù)的存儲(chǔ)訪問(wèn)。同時(shí)一天內(nèi),不同時(shí)間段爬蟲爬下來(lái)的網(wǎng)頁(yè)數(shù)也會(huì)有明顯波峰波谷,所以數(shù)據(jù)庫(kù)需要可以彈性擴(kuò)展和縮容。2.1基于主題的輿情數(shù)據(jù)采集技術(shù)數(shù)據(jù)采集是輿情工作的首要任務(wù),主要包括對(duì)主流網(wǎng)絡(luò)媒體、微博、微信、論壇以及博客上涉及涉農(nóng)輿情信息的監(jiān)測(cè)和自動(dòng)抓取。平臺(tái)采用主題爬蟲技術(shù)實(shí)現(xiàn)了基于主題的輿情數(shù)據(jù)采集。主要原理是在搜索過(guò)程中只選擇與三農(nóng)相關(guān)的頁(yè)面進(jìn)行訪問(wèn),在遍歷web的時(shí)候,根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾掉與三農(nóng)主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的url隊(duì)列。為了保證對(duì)監(jiān)控站點(diǎn)的信息采集做到不漏采,平臺(tái)采用分布式的消息隊(duì)列方式提高采集的并發(fā)度,流程如圖4所示:圖4主題爬蟲的工作流程在輿情數(shù)據(jù)的采集策略上,為了防止對(duì)方網(wǎng)站的ip封禁,在進(jìn)行數(shù)據(jù)采集時(shí)增加了ip代理,每次請(qǐng)求均會(huì)變化ip,降低網(wǎng)站的ip封禁;對(duì)重要的中央媒體、商業(yè)網(wǎng)站、地方重要站點(diǎn)等進(jìn)行全站配置,并根據(jù)標(biāo)記的更新頻率調(diào)整采集頻率;為了解決一些沒(méi)監(jiān)控站點(diǎn)的信息漏采,通過(guò)百度和360等搜索進(jìn)行所有關(guān)鍵詞的搜索結(jié)果進(jìn)行采集,并與庫(kù)中監(jiān)控?cái)?shù)據(jù)實(shí)時(shí)對(duì)比,來(lái)彌補(bǔ)定向監(jiān)控的漏采問(wèn)題;在采集時(shí)隨著采集的數(shù)量越來(lái)越大,鏈接在入庫(kù)的時(shí)候采用BloomFilter算法來(lái)提高判重的計(jì)算時(shí)間。2.2
輿情信息的處理與分析技術(shù)2.2.1網(wǎng)頁(yè)去噪網(wǎng)頁(yè)是采用html標(biāo)記的一種半結(jié)構(gòu)化數(shù)據(jù),從網(wǎng)頁(yè)標(biāo)簽中提取正文文本,網(wǎng)頁(yè)自動(dòng)摘要之前就需要進(jìn)行一次頁(yè)面的去噪。尤其是獲取的網(wǎng)頁(yè)中存在大量與我們所關(guān)心內(nèi)容無(wú)關(guān)的導(dǎo)航條、廣告信息、版權(quán)信息以及調(diào)查問(wèn)卷等被稱之為“噪音”的內(nèi)容,這些內(nèi)容對(duì)于內(nèi)容的提鏈和特征數(shù)據(jù)(比如關(guān)鍵詞、摘要、標(biāo)題、正文等)的提取會(huì)造成很大的干擾,需要在使用前去噪。網(wǎng)頁(yè)常見(jiàn)三種去噪方法:基于網(wǎng)頁(yè)結(jié)構(gòu)的方法、基于模板的方法和基于可視化的方法。在對(duì)現(xiàn)在這三類網(wǎng)頁(yè)去噪方法進(jìn)行了對(duì)比分析的基礎(chǔ)上,綜合應(yīng)用這三類方法進(jìn)行網(wǎng)頁(yè)去噪。2.2.2特征提取特征提取主要包括實(shí)現(xiàn)半結(jié)構(gòu)化/無(wú)結(jié)構(gòu)化網(wǎng)絡(luò)資源的元信息抽取,針對(duì)新聞、論壇、博客等數(shù)據(jù)源,實(shí)現(xiàn)標(biāo)題、日期、作者、來(lái)源等要素全自動(dòng)數(shù)據(jù)抽取實(shí)現(xiàn)社會(huì)網(wǎng)絡(luò)中用戶訪問(wèn)行為的要素分析與提取,如點(diǎn)擊量、回復(fù)量、訪問(wèn),IP、播放量等,實(shí)現(xiàn)按天和按時(shí)段的增量采集抽取。特征的抽取主要分為兩步:第一步是在分詞的基礎(chǔ)上進(jìn)行特征選擇,第二步是在特征選擇的基礎(chǔ)上進(jìn)行特征的二次變換完成抽取過(guò)程。本平臺(tái)在具體實(shí)施的過(guò)程中采用N-Gram的算法對(duì)輿情信息進(jìn)行特征提取并計(jì)算權(quán)重,然后利用SIPO本體對(duì)原始特征進(jìn)行相應(yīng)的抽取和轉(zhuǎn)換,從而得到一篇文本的特征向量。2.2.3中文分詞在進(jìn)行文本主題分析之前,需要先利用中文分詞預(yù)處理技術(shù)將中文文檔中的內(nèi)容切分成具有明確意義的詞項(xiàng)。常用的分詞算法主要是基于規(guī)則的和基于統(tǒng)計(jì)的,目前研究成果和成型的分詞工具很多,比如中科院計(jì)算所的NLPIR、ansj分詞器、哈工大的LTP、清華大學(xué)的THULAC、斯坦福分詞器、Hanlp分詞器、結(jié)巴分詞、KCWS分詞器、ZPar、IKAnalyzer等,目前這些工具被廣泛的應(yīng)用,應(yīng)用效果也不錯(cuò)。中文分詞的難點(diǎn)在于分詞的標(biāo)準(zhǔn)、對(duì)于待切分字符串的有歧義、對(duì)于未收錄的新詞如何處理這三個(gè)問(wèn)題。不論什么樣的分詞方法,優(yōu)秀的詞典必不可少,老的詞典對(duì)新的文本進(jìn)行分詞,就會(huì)造成分詞的結(jié)果一團(tuán)糟。為了節(jié)省存儲(chǔ)空間提高數(shù)據(jù)的采集效率,分詞時(shí)會(huì)根據(jù)建設(shè)的??吭~庫(kù)(主要是語(yǔ)氣組詞、介詞、系動(dòng)詞、副詞、連詞)進(jìn)行去噪。2.2.4內(nèi)容去重去重包括網(wǎng)頁(yè)抓取時(shí)鏈接的去重和正文內(nèi)容相似的去重去除重復(fù)信息不僅能夠節(jié)省資源,還能夠給用戶帶來(lái)更好的體驗(yàn)。去重之前有的需要統(tǒng)計(jì)相同的一篇文章分別出現(xiàn)在哪些網(wǎng)站上面,總共出現(xiàn)了多少次這些,所以在提交監(jiān)控時(shí)也需要讓需要選擇一下是否需要去重,如果用戶需要看重復(fù)的內(nèi)容這些就需要保留。關(guān)于網(wǎng)頁(yè)去重的中文文獻(xiàn)有很多,綜合起來(lái)主要有下面幾種方法:DSC算法(shingle)、DSC-SS算法、I-Match算法、Simhash算法、VSM模型、SCAM算法布爾模型,還有中文特有的特征碼索引方法等。2.2.5主題相關(guān)性分析該模塊主要通過(guò)關(guān)鍵詞集的方法來(lái)確定主題,首先是將網(wǎng)頁(yè)的標(biāo)題和正文表示成向量的形式,通過(guò)中文分詞得到一個(gè)主題網(wǎng)頁(yè)的向量表示,通過(guò)與訓(xùn)練得到的主題向量進(jìn)行相關(guān)度比較,按照設(shè)定的主題閾值來(lái)判斷當(dāng)前網(wǎng)頁(yè)是否是相關(guān)網(wǎng)頁(yè),其中訓(xùn)練得到的每個(gè)關(guān)鍵詞都擁有指定的權(quán)限值。權(quán)限的設(shè)置方法:手工設(shè)置和特征提取。特征提取是指給定一個(gè)和主題有關(guān)的網(wǎng)頁(yè)集合,由程序自動(dòng)提取這些網(wǎng)頁(yè)里面共同的特征,并根據(jù)頻率確定權(quán)值。手工設(shè)置的好處是實(shí)現(xiàn)簡(jiǎn)單,同時(shí)人的經(jīng)驗(yàn)一般比較準(zhǔn)確,跟實(shí)際情況不會(huì)出現(xiàn)大的偏差,缺點(diǎn)是可能有缺漏,權(quán)值的量化定義不夠精確;特征提取的優(yōu)點(diǎn)是權(quán)值量化定義精確,但要求選取用來(lái)提取特征的網(wǎng)頁(yè)集合必須是很有達(dá)標(biāo)性和全面概括性的,否則就可能出現(xiàn)很大的偏差。本系統(tǒng)根據(jù)實(shí)際情況使用手工設(shè)置一組關(guān)鍵詞并分配權(quán)值。“三農(nóng)”網(wǎng)絡(luò)輿情千頭萬(wàn)緒、錯(cuò)綜復(fù)雜,應(yīng)結(jié)合輿情平臺(tái)的開(kāi)發(fā),做好“三農(nóng)”網(wǎng)絡(luò)輿情內(nèi)容體系建設(shè),確立重點(diǎn)突出、分類科學(xué)的輿情內(nèi)容體系其中,一要做好“三農(nóng)”網(wǎng)絡(luò)輿情關(guān)鍵詞整理、挖掘工作,二要做好“三農(nóng)”網(wǎng)絡(luò)輿情語(yǔ)料庫(kù)分類、填充工作,三要針對(duì)各省需求做好有針對(duì)性的監(jiān)測(cè)內(nèi)容匹配工作。對(duì)于關(guān)鍵詞的整理,除了結(jié)合長(zhǎng)期的工作經(jīng)驗(yàn)提取人工整理一批外,平臺(tái)還以大量的詞句段落作為基礎(chǔ)學(xué)習(xí)材料,立足于建設(shè)精準(zhǔn)的信息清洗能力,快速過(guò)濾垃圾信息、排除重復(fù)信息,對(duì)抓取的信息自動(dòng)提取摘要、自動(dòng)生成關(guān)鍵詞,并進(jìn)行精準(zhǔn)的聚類和簡(jiǎn)潔的呈現(xiàn),不斷提升信息甄別清洗的效率和分類統(tǒng)計(jì)的準(zhǔn)度。2.2.6輿情分析輿情分析是建立在信息采集和預(yù)處理的基礎(chǔ)上,輿情分析的質(zhì)量和深度直接影響輿情分析結(jié)果的準(zhǔn)確度和可信度。2.2.7
自動(dòng)摘要自動(dòng)文摘的方法主要分為兩類:extractive和abstractive。前者是目前最主流、應(yīng)用最多、最容易的方法,后者相對(duì)來(lái)說(shuō)更有一種真正人工智能的味道。還有另外一種分類方法是,單文檔摘要和多文檔摘要,前者是后者的基礎(chǔ),但后者不只是前者結(jié)果簡(jiǎn)單疊加那么簡(jiǎn)單。由于本平臺(tái)采集的數(shù)據(jù)量較大,為了能夠更快的為每篇文章快速提取摘要,采用了第一種抽取式的方法(TextRank),即通過(guò)抽取一篇文檔中的一句或者幾句話來(lái)概括一篇文章的核心思想。抽取型文摘,一般分為如下幾個(gè)步驟:Step1.預(yù)處理:包括編碼轉(zhuǎn)換、斷句等;Step2.特征提?。喝绶衷~、統(tǒng)計(jì)詞頻、關(guān)鍵詞抽取、名實(shí)體識(shí)別、詞語(yǔ)(語(yǔ)句)位置信息、段落結(jié)構(gòu)信息等;Step3.語(yǔ)句權(quán)重計(jì)算:權(quán)重的決定因素包括詞語(yǔ)位置(句首)、是否是指示性詞語(yǔ)即第一或者最后這種、是否是名實(shí)體、是否在標(biāo)題中、詞的情感因素、ngram信息等;Step4.按計(jì)算權(quán)重對(duì)語(yǔ)句排序,根據(jù)比例抽取文摘句;Step5.根據(jù)語(yǔ)句在原文中出現(xiàn)的順序重新排序,并對(duì)生成文摘進(jìn)行潤(rùn)色,如:指代消解。3
輿情平臺(tái)運(yùn)行實(shí)例和結(jié)果分析3.1輿情監(jiān)測(cè)數(shù)據(jù)范圍平臺(tái)立足于建設(shè)強(qiáng)大的信息抓取能力,針對(duì)不同網(wǎng)站平臺(tái)的構(gòu)架特點(diǎn),進(jìn)行覆蓋全網(wǎng)的深度監(jiān)測(cè),實(shí)現(xiàn)可擴(kuò)展的多通道高效采集技術(shù)為用戶提供監(jiān)控源配置功能,可以對(duì)監(jiān)控源的優(yōu)先級(jí)進(jìn)行配置調(diào)整。平臺(tái)的監(jiān)測(cè)范圍重點(diǎn)包括以下幾種載體:新聞?shì)d體:由于新聞網(wǎng)站眾多,為了能夠更好的對(duì)站點(diǎn)進(jìn)行管理和采集,將站點(diǎn)進(jìn)行了分類:中央媒體:如新華網(wǎng)等,進(jìn)行全時(shí)重點(diǎn)監(jiān)測(cè);商業(yè)門戶:如新浪網(wǎng)、鳳凰網(wǎng)等,進(jìn)行全時(shí)重點(diǎn)監(jiān)測(cè);地方媒體:包括港澳臺(tái)媒體,如紅網(wǎng)、大公網(wǎng)等,監(jiān)測(cè)范圍延至縣級(jí)媒體平臺(tái);國(guó)外中文媒體:如聯(lián)合早報(bào)網(wǎng)等;行業(yè)網(wǎng)站:如三農(nóng)在線等,關(guān)注一批影響力強(qiáng)、資訊量大的行業(yè)網(wǎng)站。論壇網(wǎng)站:如天涯等,關(guān)注一批網(wǎng)絡(luò)知名度高、網(wǎng)民活躍度高的論壇網(wǎng)站;博客網(wǎng)站:如新浪博客等,建立一批需要常規(guī)監(jiān)測(cè)的博主名單;微博網(wǎng)站:如新浪微博等,建立一批需要常規(guī)監(jiān)測(cè)的微博大V名單;微信:對(duì)微信公眾號(hào)的數(shù)據(jù)進(jìn)行實(shí)時(shí)的監(jiān)控;視頻:針對(duì)廣電媒體等重要的視頻數(shù)據(jù)進(jìn)行監(jiān)控;App:針對(duì)重要的手機(jī)app數(shù)據(jù)進(jìn)行監(jiān)控。3.2熱詞分析熱詞提取對(duì)于監(jiān)控和分析農(nóng)業(yè)輿情具有重要意義,目前已有一定研究基礎(chǔ),但仍存在針對(duì)性差等問(wèn)題,無(wú)法滿足農(nóng)業(yè)領(lǐng)域不同產(chǎn)業(yè)用戶群的個(gè)性化需求。為此,和中國(guó)農(nóng)業(yè)大學(xué)合作提出一種基于農(nóng)業(yè)網(wǎng)絡(luò)信息分類的熱詞自動(dòng)提取方法[9],具體的處理流程見(jiàn)圖5。首先采用多標(biāo)記分類算法對(duì)文本語(yǔ)料進(jìn)行分類,按分類類別構(gòu)建語(yǔ)料庫(kù),然后采用基于信息熵的方法對(duì)每個(gè)類別分別提取熱詞候選詞,最后采用基于時(shí)間變化的方法進(jìn)行候選詞熱度計(jì)算,根據(jù)候選詞熱度排序結(jié)果得到熱詞。本文抽取農(nóng)業(yè)網(wǎng)站上的15354條文本進(jìn)行實(shí)驗(yàn)。結(jié)果表明,熱詞提取準(zhǔn)確率達(dá)到90%以上,能夠較高質(zhì)量地提取農(nóng)業(yè)熱詞,為不同農(nóng)業(yè)用戶群體發(fā)現(xiàn)和分析產(chǎn)業(yè)熱點(diǎn)提供幫助。圖5熱詞提取流程圖3.3預(yù)警研判3.3.1輿情指數(shù)體系建設(shè)主要是通過(guò)對(duì)信息的首發(fā)媒體、轉(zhuǎn)載數(shù)量、內(nèi)容主題、跟帖數(shù)量、感情傾向、傳播路徑、演化趨勢(shì)等屬性維度進(jìn)行權(quán)重分配和指標(biāo)量化,合理設(shè)計(jì)、科學(xué)建立“三農(nóng)”網(wǎng)絡(luò)輿情指數(shù)指標(biāo)體系。根據(jù)信息的輿情指數(shù),對(duì)信息作出綜合研判分析,為輿情信息預(yù)警提供科學(xué)依據(jù)。輿情指數(shù)如圖6所示:圖6輿情研判指數(shù)3.3.2關(guān)鍵詞預(yù)警:預(yù)警規(guī)則:通過(guò)設(shè)置預(yù)警關(guān)鍵詞,對(duì)包含預(yù)警關(guān)鍵詞的信息進(jìn)行預(yù)警報(bào)告。預(yù)警等級(jí):實(shí)行三級(jí)預(yù)警等級(jí),第一級(jí)黃色預(yù)警信息,即需要關(guān)注的信息;第二級(jí)橙色預(yù)警信息,即需要深度監(jiān)測(cè)的信息;第三級(jí)紅色預(yù)警信息,即需要應(yīng)急處置的信息。其余未標(biāo)明顏色的信息為普通信息。預(yù)警方式:采取彈窗、短信、郵件等多種方式進(jìn)行自動(dòng)預(yù)警或者人工預(yù)警。3.3.3預(yù)警預(yù)測(cè)根據(jù)歷史輿情事件發(fā)生的規(guī)律,提前預(yù)知網(wǎng)絡(luò)輿情轉(zhuǎn)到線下的活動(dòng)預(yù)測(cè)的方式有兩種,一種是對(duì)歷史數(shù)據(jù)進(jìn)行擬合得到相應(yīng)的預(yù)測(cè)模型進(jìn)行輿情的趨勢(shì)預(yù)測(cè);另外一種則是對(duì)于三農(nóng)上比較具有規(guī)律的輿情進(jìn)行歷史數(shù)據(jù)的統(tǒng)計(jì)分析,分析其規(guī)律數(shù)據(jù),作為政府和企業(yè)決策的基礎(chǔ)。3.3.4熱點(diǎn)識(shí)別與追蹤目前主流的熱點(diǎn)追蹤算法都采用文本聚類技術(shù)來(lái)實(shí)現(xiàn),常見(jiàn)的六大聚類算法為:K-Means聚類、均值漂移聚類、基于密度的聚類方法、用高斯混合模型的最大期望聚類、凝聚層次聚類、圖團(tuán)體檢測(cè),但是這些基礎(chǔ)的算法在處理大量的網(wǎng)頁(yè)時(shí),都很難精準(zhǔn)聚合中心結(jié)果,本平臺(tái)根據(jù)文章標(biāo)題自動(dòng)挖掘熱點(diǎn)關(guān)鍵詞,以關(guān)鍵詞為線索進(jìn)行話題的聚類,同時(shí)采用基于K-Means的增量聚類算法進(jìn)行文本的聚類,經(jīng)過(guò)實(shí)驗(yàn)對(duì)比漏報(bào)率下降到10.7%,誤報(bào)率下降到了0.78%。本平臺(tái)上輿情熱點(diǎn)包括三類:1.突
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 大連醫(yī)科大學(xué)《皮革整飾化學(xué)與工藝學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江藥科職業(yè)大學(xué)《學(xué)前兒童衛(wèi)生學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 天津醫(yī)學(xué)高等專科學(xué)?!吨嗅t(yī)基礎(chǔ)理論》2023-2024學(xué)年第二學(xué)期期末試卷
- 衡陽(yáng)師范學(xué)院南岳學(xué)院《信號(hào)與系統(tǒng)綜合實(shí)踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 工程竣工驗(yàn)收?qǐng)?bào)告防腐涂料質(zhì)量評(píng)估
- 針對(duì)進(jìn)口商品各種情況調(diào)查
- 2025年中國(guó)醫(yī)藥市場(chǎng)分析:規(guī)模突破4萬(wàn)億元 基因藥物增速領(lǐng)跑行業(yè)
- 深溝槽專項(xiàng)施工方案
- 湖南省株洲市淥口區(qū)第三中學(xué)、株洲健坤瀟湘高級(jí)中學(xué)2024-2025學(xué)年高二上學(xué)期1月期末聯(lián)考數(shù)學(xué)試題(解析版)
- 成渝經(jīng)濟(jì)圈名校聯(lián)盟2024-2025學(xué)年高三上學(xué)期第一次聯(lián)考數(shù)學(xué)試題(解析版)
- 中小學(xué)勞動(dòng)教育實(shí)踐指導(dǎo)手冊(cè)
- 基于語(yǔ)文核心素養(yǎng)的初中語(yǔ)文綜合性學(xué)習(xí)教學(xué)策略研究
- 高血壓?jiǎn)T工免責(zé)協(xié)議范本
- 工藝部述職報(bào)告
- 供貨交貨進(jìn)度計(jì)劃及保證措施
- 第17課《學(xué)習(xí)中的煩心事》課件
- 規(guī)劃選址及用地預(yù)審流程
- 關(guān)于衛(wèi)健系統(tǒng)工作調(diào)研報(bào)告
- 烯烴習(xí)題參考答案
- 2023-2024學(xué)年山東省淄博市高青縣七年級(jí)下學(xué)期期中考試英語(yǔ)試題 (含答案)
- 各國(guó)鋼材牌號(hào)對(duì)照大全
評(píng)論
0/150
提交評(píng)論