版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預警系統(tǒng)設計及實現(xiàn)虞穎映;吳立仁;胡天天;馬凌飛;朱瑞英;施培武【摘要】TheInternetPublicOpinionMonitoringandEarlyWarningSystemformedicalandhealthindustrywasdesignedandimplementedduetothefrequentoccurrenceofInternetpublicopinion,whichhasall-directionaldatacollectingandanalyzingfunctions,includingbigdatacollection,nearduplicatedetection,spamfiltration,keypublicopinionearlywarning,regionidentificationandtendencyanalysis,andcanthusprovideevidenceforrelevantdepartmentstotakeeffectivemeasuresforthecontrolofInternetpublicopinion.%在當前醫(yī)療衛(wèi)生行業(yè)網(wǎng)絡輿情多發(fā)易發(fā)的態(tài)勢下,行業(yè)互聯(lián)網(wǎng)輿情監(jiān)測預警信息服務系統(tǒng)實現(xiàn)了大數(shù)據(jù)采集、近似文本去重、智能垃圾文過濾、重要輿情預警、地域識別、傾向性分析等全方位的數(shù)據(jù)采集和分析功能,為相關部門全面掌控網(wǎng)絡輿情和有效應對提供依據(jù).【期刊名稱】《中華醫(yī)學圖書情報雜志》【年(卷),期】2017(026)003【總頁數(shù)】5頁(P37-40,53)【關鍵詞】醫(yī)療衛(wèi)生行業(yè);大數(shù)據(jù)采集;互聯(lián)網(wǎng)輿情;文章去重;垃圾文過濾;輿情監(jiān)測【作者】虞穎映;吳立仁;胡天天;馬凌飛;朱瑞英;施培武【作者單位】浙江省醫(yī)學科學院,浙江杭州310012;浙江省醫(yī)學科學院,浙江杭州310012;浙江省醫(yī)學科學院,浙江杭州310012;浙江省醫(yī)學科學院,浙江杭州310012;浙江省醫(yī)學科學院,浙江杭州310012;浙江省醫(yī)學科學院,浙江杭州310012【正文語種】中文【中圖分類】GR19;TP393醫(yī)療衛(wèi)生行業(yè)是關乎家庭幸福的重大民生工程,醫(yī)療問題是網(wǎng)民最為關注的熱點之一。在我國醫(yī)療衛(wèi)生改革與發(fā)展的過程中,體制性矛盾、醫(yī)療糾紛和突發(fā)公共衛(wèi)生事件都會引發(fā)大小不一、影響各異的輿情事件;同時,互聯(lián)網(wǎng)技術的蓬勃發(fā)展以及網(wǎng)民數(shù)量劇增所致的信息快速、廣泛傳播,進一步加劇了醫(yī)療衛(wèi)生事件在全國范圍內的影響力和爆發(fā)力,使醫(yī)療衛(wèi)生互聯(lián)網(wǎng)輿情總體呈現(xiàn)觸點多、燃點低、熱度高的特點,更加多發(fā)易發(fā)[1]。尤其是一些負面輿情的持續(xù)發(fā)酵,激化了醫(yī)患矛盾,引發(fā)了醫(yī)藥衛(wèi)生行業(yè)的形象危機,進而屢陷輿論漩渦[2-3]。在全國醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情井噴、相關部門對互聯(lián)網(wǎng)輿情管控難度劇增的態(tài)勢下,除了需要在制度、管理等方面逐步完善以外,也需要充分利用現(xiàn)有的信息技術,及時地發(fā)現(xiàn)和處理這些輿情事件。做好互聯(lián)網(wǎng)輿情信息的監(jiān)測,及時、科學應對,已成為相關醫(yī)療機構和政府部門的工作重點[4-5]?;诖宋覀冊O計并開發(fā)了醫(yī)療衛(wèi)生行業(yè)的互聯(lián)網(wǎng)輿情監(jiān)測預警信息系統(tǒng),結合具有衛(wèi)生行業(yè)背景的專業(yè)輿情分析師的人工處理分析和研判,開展行業(yè)輿情監(jiān)測分析工作,為行政管理機構及醫(yī)療計生單位對互聯(lián)網(wǎng)輿情的全面掌控和有效應對提供專業(yè)可信的依據(jù)。系統(tǒng)的架構和功能實現(xiàn)介紹如下。1系統(tǒng)需求本項目開發(fā)的醫(yī)療衛(wèi)生網(wǎng)絡輿情監(jiān)測系統(tǒng)主要實現(xiàn)互聯(lián)網(wǎng)信息獲取、互聯(lián)網(wǎng)信息處理、輿情分析、輔助決策支持4個方面功能。其中互聯(lián)網(wǎng)輿情信息獲取的快與準、內容分析的確定性、輿情研判的準確性、輿情響應的及時性、信息跟蹤的及時性等目標的實現(xiàn),是本系統(tǒng)開發(fā)技術的關鍵點和輿情分析研究的主要著力點[6]。1.1網(wǎng)絡信息獲取互聯(lián)網(wǎng)輿情的來源十分復雜,包括新聞網(wǎng)站、論壇、博客等,主要表現(xiàn)形式為動態(tài)網(wǎng)頁,具有主題發(fā)散、形式多樣、時效性強等特點。互聯(lián)網(wǎng)信息獲取的目的就是要采集和提取這些動態(tài)網(wǎng)頁中的非結構化信息。1.2網(wǎng)絡信息處理新聞、論壇帖子、博文等頁面包含有效信息,同時也包含垃圾信息,因此在輿情分析前必須去偽存真。網(wǎng)絡信息的處理目的是對頁面內容進行過濾,并提煉成概要信息,便于查詢和檢索。再經(jīng)過人工的二次審核,確保保留信息的準確性,以提升輿情分析的準確性和科學性。1.3輿情監(jiān)測分析及預警網(wǎng)民討論的話題極為發(fā)散,如何從海量信息中找到熱點、敏感話題,并對其趨勢變化進行追蹤,成為公共衛(wèi)生網(wǎng)絡輿情監(jiān)測系統(tǒng)的重點。系統(tǒng)需要從實時采集到的數(shù)據(jù)中篩選出重要的敏感信息,及時推送給有關部門以達到預警的目的。對于持續(xù)追蹤的輿情,系統(tǒng)可自動生成相應圖表,并進行人工分析,最終形成準確、專業(yè)、全面的輿情分析報告。1.4輔助決策支持醫(yī)療衛(wèi)生互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)需為相關部門的決策服務,因此需要將各種輿情分析結果接入個人工作平臺,服務于實際工作。2系統(tǒng)架構系統(tǒng)架構遵循先進性、可靠性、安全性、標準化、成熟性、適用性、可擴展性原則,按層次架構進行設計,每層之間通過松散藕合的方式相互通信,從下而上分別由采集模塊、過濾模塊、分析模塊、應用系統(tǒng)組成(圖1)。圖1醫(yī)療衛(wèi)生網(wǎng)絡輿情監(jiān)測系統(tǒng)架構2.1信息采集模塊網(wǎng)絡輿情散布于網(wǎng)絡的各個部分,如新聞、論壇、微信、微博、博客等。這些信息實時更新,動態(tài)變化。信息獲取的目標是對相關信息進行采集,對已有數(shù)據(jù)進行周期性的更新以獲取其最新的轉發(fā)和評論狀態(tài)。采集的信息源以及采集頻率都可以根據(jù)用戶需要,進行定制化配置,靈活性強。用戶還可自定義特定主題或事件,如〃莆田系”,從而對特定主題或事件進行專題監(jiān)測和追蹤,并由系統(tǒng)生成專題報道。由于不同數(shù)據(jù)源的格式千差萬別,在獲取信息前要對每個站點進行采集配置,以確保能夠及時準確從網(wǎng)頁中采集標題、內容、作者、發(fā)文時間等內容,并格式化存儲以方便之后的量化統(tǒng)計分析。2.2信息過濾模塊由于互聯(lián)網(wǎng)數(shù)據(jù)質量參差不齊,各種垃圾信息(如廣告)充斥其中,智能的垃圾文識別算法可有效過濾廣告等無用信息。然后,可根據(jù)每個角色自身業(yè)務需求,進一步將這些數(shù)據(jù)分門別類,最終實現(xiàn)根據(jù)不同的需求呈現(xiàn)不同的數(shù)據(jù)。2.3信息分析模塊信息分析模塊能實現(xiàn)輿情信息自動提取摘要,自動識別與主題相關的內容并自動聚類,對信息內容進行正負面情感傾向性分析。除了及時篩選出重要的輿情信息之外,還要能識別出熱點話題,并根據(jù)該話題事件輿情信息的各個維度,包括人群分布、媒體分布、時間趨勢、地域分布、觀點分類等的統(tǒng)計及對數(shù)據(jù)的有效組織、分類,從多方面分析輿情信息的具體分布情況,從而分析事件的整體發(fā)展趨勢和現(xiàn)狀,以及網(wǎng)民對事件的觀點傾向。3模塊功能實現(xiàn)系統(tǒng)采用跨平臺的JAVA技術,使采集系統(tǒng)可以在各種操作系統(tǒng)上運行。同時,為了解決數(shù)據(jù)量大引發(fā)的擴展性問題,底層數(shù)據(jù)的存儲和分發(fā)采用hadoop的相關技術實現(xiàn),機器學習相關的算法采用weka實現(xiàn)。3.1信息采集模塊采集器構架(圖1)不但可以采集普通采集器所能實現(xiàn)的簡單的網(wǎng)頁采集,還可以執(zhí)行網(wǎng)頁上的動態(tài)腳本(如javascript,ajax等),以得到普通采集方式通過抓取靜態(tài)頁面無法獲取的信息。3.1.1動態(tài)網(wǎng)頁的采集越來越多的網(wǎng)站采用了動態(tài)頁面技術(即javascript、ajax等),典型的如博客、微博等網(wǎng)站,通過普通的靜態(tài)頁面只能采集到部分信息,甚至采集不到真正的頁面內容。本系統(tǒng)的采集器內采用了頁面動態(tài)構建技術,可以使采集到的頁面執(zhí)行頁面動態(tài)腳本得到與普通瀏覽器完全一致的頁面內容。3.1.2采集范圍廣泛目前采集器的采集目標包括微信公眾號、新聞、論壇、博客、微博、RSS等各種類型的站點。除了采集系統(tǒng)所設的目標網(wǎng)站外,還能獲取各大搜索引擎的內容,以獲取采集目標站點外的信息作為重要補充。由于系統(tǒng)包含各目標站點類型的配置信息,除了普通網(wǎng)絡采集器能夠采集到的網(wǎng)頁標題、網(wǎng)頁更新時間、網(wǎng)頁內容外,最大特點是可以根據(jù)此配置信息自動解析出普通網(wǎng)頁中輿情處理的結構化信息,如標題、內容、發(fā)表時間、閱讀數(shù)、回復量、最新回復時間等。系統(tǒng)有定時的網(wǎng)站格式分析及監(jiān)測,在網(wǎng)站結構改變時,能夠及時調整系統(tǒng)針對站點的配置設定以及時獲取正確的信息。采集系統(tǒng)除了采用常規(guī)的關鍵詞采集外,還能夠對指定的站點實現(xiàn)全采集,即地毯式搜索,不遺漏任何輿情信息。另外,系統(tǒng)也能夠采集某些需要登錄才能看到內容的網(wǎng)站,如某些論壇和微博站點,并且能夠采取各種措施有效繞過網(wǎng)站的反爬蟲技術實現(xiàn)輿情采集。3.2信息過濾模塊信息過濾模塊主要包括文章去重,垃圾文過濾和輿情預警3個部分。3.2.1文章去重互聯(lián)網(wǎng)中存在大量的重復頁面,統(tǒng)計表明系統(tǒng)所采集的數(shù)據(jù)中有超過50%的重復。檢測重復頁面對于減少重復工作量,提高數(shù)據(jù)質量至關重要。同時,由于每天采集的文章量巨大,要實時計算每篇文章是否是近似重復文章對算法的計算速度具有很高的要求。因此系統(tǒng)采用7TF-IDF,I-match[7-8],Shingling[9-10]和JaccardIndex相結合的方式計算,對每篇文檔進行分詞,找出所有的停用詞,停用詞后面的連續(xù)兩個非停用詞詞串作為代表這篇文檔的詞串;計算所有這些詞串的IDF,去掉IDF太大和太小的詞串;利用I-match算法[7-8]計算和已經(jīng)有的文檔是否相似,如果相似則該篇文檔的計算結束,如果不相似則對每篇文檔計算其選取詞串的TFIDF,然后根據(jù)LSH計算是否和已經(jīng)有的文檔相似;對每篇文檔利用Shingling方法[9-10]計算其是否和已有文檔相似;對于任何可能相似的情況進一步計算所有詞串的JaccardIndex來過濾掉假陽性。3.2.2垃圾文過濾網(wǎng)絡所采集的大量文章中,很多都和醫(yī)療衛(wèi)生不相關。本系統(tǒng)采用weka文本分類技術對每篇采集的文本進行分類,可以將和醫(yī)療相關的文章篩選出來,過濾掉垃圾文。這一步篩選至關重要,其準確性直接影響到后續(xù)數(shù)據(jù)分析中統(tǒng)計的正確性。3.2.3輿情預警系統(tǒng)通過關鍵詞匹配的方式從醫(yī)療衛(wèi)生相關的信息中過濾出敏感的輿情事件。為此,我們收集整理了和醫(yī)療衛(wèi)生相關的負面詞庫,其中包括諸如〃醫(yī)鬧”〃醫(yī)患”〃單獨兩孩”等詞。然后在系統(tǒng)過濾的基礎上,通過人工研判識別的方式篩選出重要信息,并根據(jù)信息的重要性和緊急程度,分成一般、重要、緊急3個級別,通過WEB端、PC端和手機客戶端等方式推送預警,以確保用戶能隨時隨地及時掌握最新重要輿情。3.3信息分析模塊圍繞過濾之后的數(shù)據(jù),系統(tǒng)會進行多方位的分析。其中分析技術包括熱點識別、熱詞發(fā)現(xiàn)、傾向性分析、地域識別、趨勢分析和媒體分析等?;谶@些分析結果,系統(tǒng)可通過圖形化的方式展示,具有較好的可視化效果。3.3.1熱點事彳件系統(tǒng)根據(jù)新聞熱點、關鍵詞、專題等信息進行熱度分析,考慮了信息來源、所處網(wǎng)頁位置、轉載、點擊、評論、回復和報道率等關鍵因素,對這些因素進行綜合排名,并支持以半小時為間隔的任意時間段進行統(tǒng)計分析,同時提供1天、3天、7天等時間序列的符合用戶精確度要求的分類熱點排行。此外,系統(tǒng)還可以對熱點信息進行持續(xù)追蹤,并通過趨勢分析圖和傳播鏈分析圖等技術幫助用戶了解熱點事件的報道趨勢以及來龍去脈,幫助用戶更好地對輿情進行研判。3.3.2熱詞發(fā)現(xiàn)系統(tǒng)在不斷更新的信息中尋找一定時期熱度較高的短語,如人名、地名、機構名和其他常見短語。很多網(wǎng)絡熱詞是詞典中未收錄的新詞語,因此計算熱詞的時候,系統(tǒng)主要考慮兩個方面,一是出現(xiàn)的頻率信息越多,熱度越高;二是歷史波動信息曲線越陡,熱度越高。3.3.3傾向性分析情感傾向性分析具有極強的行業(yè)領域依賴性[11]。本系統(tǒng)通過建立面向衛(wèi)生行業(yè)領域的情感詞典,對輿情進行觀點傾向性分析,自動分析文章的傾向性為正面、負面還是中性,從而為輿情處理提供重要的分析依據(jù)。在實現(xiàn)上,本系統(tǒng)同樣采用weka技術實現(xiàn)文本的傾向性分類。3.3.4地域識別系統(tǒng)采用了實體名識別技術,對其中的地域名詞進行識別,并且將每一個地域名詞歸類到全國的地域層級上,從而實現(xiàn)全國范圍內的地域識別。4結論我們設計開發(fā)的輿情監(jiān)測系統(tǒng)可實現(xiàn)7x24小時不間斷采集互聯(lián)網(wǎng)信息,通過系統(tǒng)智能過濾、強大的分析功能配合人工精細化服務的研判分析,及時有效地從互聯(lián)網(wǎng)上篩選出醫(yī)療衛(wèi)生行業(yè)相關的輿情事件并進行預警、專題追蹤和趨勢分析,同時通過Web端、PC輿情助手和手機客戶端,確保用戶隨時隨地都能準確有效地掌握最新輿情動態(tài)并做出有效應對。和其他輿情分析系統(tǒng)相比,本系統(tǒng)采集的數(shù)據(jù)源更廣,數(shù)據(jù)分類更智能,數(shù)據(jù)分析更完備,結合人工分析服務,使輿情研判和預警更加精準。但實際運行過程中尚存在一些需要完善的地方,主要包括以下3個方面?!禽浨槭录姆治?。一件輿情事件可能涉及到幾百至上百萬的文章,如何將每篇文章自動準確地歸類于某一事件尚需進一步探索。雖然通過關鍵詞等方式可以解決大部分問題,但是有很多長尾文章不能簡單地通過關鍵詞的方式過濾。二是傾向性分析。由于自然語言處理的復雜性,對于一個事件的正負面評價以及網(wǎng)民評論傾向性分析并不是一件容易的事情,需要不斷完善系統(tǒng)中傾向性分類器的精度。三是境外外語輿情監(jiān)測功能欠缺[12]。主要存在聯(lián)通不暢、語言不支持、抓取不及時等短板,需加強境外站點的配置、語種語料庫等設置。【參考文獻】【相關文獻】王鳳皎.中國醫(yī)療輿情年度報告(2012)[J].新媒體與社會,2013(4):185-210.張祥.淺談醫(yī)療機構網(wǎng)絡輿情的應對[J].江蘇衛(wèi)生事業(yè)管理,2013(6):270-271.曹文獻積極應對網(wǎng)絡輿情,有效促進和諧醫(yī)療[J].解放軍醫(yī)院管理雜志,2012,19(10):901-903.王宏偉.特大自然災害的輿情監(jiān)控研究[J].中國公共安全,2008(Z1):11.郭巖,萬明,朱丹燕,等.公共衛(wèi)生網(wǎng)絡輿情監(jiān)測系統(tǒng)設計及實現(xiàn)[J].醫(yī)學信息學雜志,2011,32(8):6-9.馬梅,劉東蘇,李慧.基于大數(shù)據(jù)的網(wǎng)絡輿情分析系統(tǒng)模型研究[J].情報科學,2016,34(3):25-28,33.ChowdhuryA,FriederO,GrossmanD,etal.Collec
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度文化遺產(chǎn)保護與修復個人雇傭合同4篇
- 2025年度農機作業(yè)租賃與農業(yè)保險創(chuàng)新合作合同4篇
- 2025年度新型建筑節(jié)能材料膩子乳膠漆施工合同模板下載4篇
- 2025年度個人股東股權轉讓與電子商務平臺運營合同4篇
- 二零二四年國有企業(yè)內部審計與控制體系合同3篇
- 2025版智能交通系統(tǒng)集成服務合同范本4篇
- 二零二五年版墓地陵園墓地使用權終止合同3篇
- 2025年度個人循環(huán)借款合同(含借款人職業(yè)發(fā)展輔導服務)4篇
- 2025年度電梯門套安裝與售后服務合同范本3篇
- 2025年度智能門禁系統(tǒng)定制開發(fā)與部署合同4篇
- 2023-2024學年西安市高二數(shù)學第一學期期末考試卷附答案解析
- 部編版二年級下冊道德與法治第三單元《綠色小衛(wèi)士》全部教案
- 【京東倉庫出庫作業(yè)優(yōu)化設計13000字(論文)】
- 保安春節(jié)安全生產(chǎn)培訓
- 初一語文上冊基礎知識訓練及答案(5篇)
- 初中班級成績分析課件
- 勞務合同樣本下載
- 血液透析水處理系統(tǒng)演示
- GB/T 27030-2006合格評定第三方符合性標志的通用要求
- GB/T 13663.2-2018給水用聚乙烯(PE)管道系統(tǒng)第2部分:管材
- 同角三角函數(shù)的基本關系式同步練習
評論
0/150
提交評論