版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于機器學習的文本情感分析在社會類突發(fā)事件處理中的應用摘要:網(wǎng)絡信息服務的范圍在逐漸拓展,表現(xiàn)出鮮明的智慧化和精細化特點?;ヂ?lián)網(wǎng)上的頻繁行為產(chǎn)生了海量信息,造成了網(wǎng)絡信息量巨大而難以解決;網(wǎng)絡空間以其開放性,強交互性,高隱蔽性和快速傳播速度成為不法分子實施危害社會公共安全行為的主戰(zhàn)場,這對于網(wǎng)絡治理模塊中國家安全部門的應急處理策略與手段也有了更高層次的要求。針對上述情況,本研究提出基于機器學習文本情感分析方法并對該方法在社會類突發(fā)事件敏感信息采集與處理方面的應用進行了分析。關鍵詞:機器學習;文本情感分析;社會類突發(fā)事件信息收集引言網(wǎng)絡信息服務的范圍逐漸拓展,涉及金融,醫(yī)療,旅游,環(huán)保等各個方面,互聯(lián)網(wǎng)絡表現(xiàn)出鮮明的智慧化和精細化特點。短視頻應用快速興起,電子商務和移動社交應用深度結合,移動支付軟件大范圍應用,這些都顯示了互聯(lián)網(wǎng)應用所帶來的便利。同時,互聯(lián)網(wǎng)中的頻繁互動會產(chǎn)生海量的數(shù)據(jù),導致相關部門對數(shù)據(jù)的處理的難度大增。近年來社交用戶隱私泄露,遇到網(wǎng)上詐騙,設備內病毒或者木馬問題突出,同時也出現(xiàn)了不實信息恣意擴散的情況,所以網(wǎng)絡綜合治理還有待加強。網(wǎng)絡空間具有高度開放性,強烈交互性,高度隱蔽性和傳播速度快等特征,互聯(lián)網(wǎng)絡已經(jīng)成為社會類突發(fā)事件應急預防處理的主戰(zhàn)場,對網(wǎng)絡治理模塊中國家安全部門的應急處理戰(zhàn)略和手段也提出了更多的要求。社會類突發(fā)事件情報工作始終面臨著對文本信息進行分析和加工的困難。文本信息本身存在著一詞多義,歧義和斷句不清的現(xiàn)象,這給文本分析和處理時帶來了很大的噪聲干擾,再加上網(wǎng)絡空間信息流速較高,使得社會類突發(fā)事件情報部門無法快速地獲取信息或截獲情報,難以從這些情報中解剖到大量寶貴而可用的情報。與大數(shù)據(jù)技術和傳統(tǒng)機器學習方法相比較,深度學習算法激勵采集大數(shù)據(jù)集,并可通過培訓完成數(shù)據(jù)深層特征抽取。1、機器學習發(fā)展歷程1.1機器學習發(fā)展歷程機器學習作為人工智能的一個重要分支,其發(fā)展歷程可追溯至20世紀50年代。早期研究主要基于神經(jīng)網(wǎng)絡和統(tǒng)計學習理論。1957年,F(xiàn)rankRosenblatt教授提出了感知機(Perceptron)概念,成為神經(jīng)網(wǎng)絡模型的開山鼻祖。1959年,IBM公司的ArthurSamuel設計了一個具有學習能力的跳棋程序,標志著機器學習正式進入發(fā)展期。20世紀60年代至70年代末,機器學習發(fā)展相對緩慢,處于所謂的“冷靜時期”。但在這期間,基于邏輯表示的符號主義學習技術開始蓬勃發(fā)展,如結構學習系統(tǒng)、基于邏輯的歸納學習系統(tǒng)等。進入20世紀80年代,機器學習迎來了復興時期。1986年,機器學習成為新的邊緣學科并在高校形成一門課程。此時,機器學習理論基礎得以鞏固,多種形式的集成學習系統(tǒng)研究興起,如連接學習符號學習的耦合。此外,機器學習與人工智能各種基礎問題的統(tǒng)一性觀點開始形成。隨著計算機技術的飛速發(fā)展,機器學習進入了一個新的階段。特別是近年來,機器學習在圖像識別、自然語言處理、推薦系統(tǒng)等領域取得了顯著成果。如今,機器學習已成為許多行業(yè)的核心技術,如自動駕駛、醫(yī)療診斷、金融分析等。同時,機器學習也在不斷探索新的理論和方法,以應對未來可能面臨的挑戰(zhàn)。1.2機器學習的關鍵技術機器學習是一門由統(tǒng)計學、概率論、凸分析、算法復雜度理論等多個學科組成的交叉研究。它是人工智能的關鍵所在,是一種以模仿和實現(xiàn)人的學習行為來獲得知識和技術,并且通過對現(xiàn)有知識的不斷重組來提高自己的能力。機器學習可以分為如下圖幾個方面。圖1機器學習的內容有監(jiān)督學習是使用已帶標簽的樣本數(shù)據(jù)去訓練一個分類器模型,再利用這個模型把所有輸入的數(shù)據(jù)轉換為相應的標簽輸出,這便可以實現(xiàn)未知數(shù)據(jù)相應的預測和分類功能。有監(jiān)督學習中的數(shù)據(jù)是提前做好標記的,已知數(shù)據(jù)的分類情況,相應的訓練集數(shù)據(jù)是包含特征和標簽信息的,根據(jù)訓練集對分類器的訓練從而得到測試集相應的輸出。無監(jiān)督學習所使用的訓練集包含的數(shù)據(jù)的標記信息不是提前知道的,它可以從沒有標記的數(shù)據(jù)中發(fā)掘出數(shù)據(jù)的本質和關系。無監(jiān)督學習無論是研究范圍還是應用范圍最大的都是聚類。半監(jiān)督學習則處于有監(jiān)督學習和無監(jiān)督學習的中間,它所使用的訓練集數(shù)據(jù)有一部分是帶標簽的,但其中無標簽數(shù)據(jù)的數(shù)量遠大于有標簽數(shù)據(jù)的數(shù)量。半監(jiān)督學習方法的優(yōu)點在于它能顯著降低模型對標簽數(shù)據(jù)的依賴性,同時,由于未標記數(shù)據(jù)更易于獲取,因此可以帶來更多的應用價值。1.3深度學習深度學習從本質上講是一種通過加入各種算法、構建多樣化模型模擬人類神經(jīng)系統(tǒng)、再通過大量數(shù)據(jù)訓練所構造的多層隱藏層、提取圖像抽象特征、分類整合等方法以提高分類和預測精度的一種算法。深度學習憑借自身優(yōu)越的性能和前景,從機器學習中嶄露頭角并發(fā)展為新興分支,對于促進人工智能發(fā)展至關重要[1]。深度學習就是模擬與人腦深層相似的神經(jīng)網(wǎng)絡對各種數(shù)據(jù)擬合的機器學習方法,利用多層次圖像空間位點的特征學習形成樹狀操控模式并對其進行深層次識別。深度學習過程可看作是一個從底層向高層逐層對輸入信號進行處理,以實現(xiàn)與輸出目標關系并不密切的原始輸入表示向與輸出目標關系較為密切的表示特征的學習,這種從下到上對信息進行分層處理的方法有助于得到較為抽象,歧義較小以及魯棒性較強的特征。深度模型對問題的處理能力主要取決于它的模型復雜度,隱層神經(jīng)元個數(shù)的增加促進了模型復雜度的提高,增加水平越高精度越高,顯著改善了模型性能[2]。1.4文本特征提取文本特征選擇以文本描述主體與表現(xiàn)形式為主線,貼近語料背景進行研究,既要兼顧文本本身的特點,又要避免一詞多義以及特征代表性不強的問題,原則在于去除無關特征項以及冗余信息以實現(xiàn)降維表示。傳統(tǒng)文本特征的選擇是以統(tǒng)計方法為基礎進行的,即將文本中有代表性的高頻詞選為特征單元,利用統(tǒng)計方法來計算特征權重需要消耗大量的人力和物力,同時由于人為參與比較大,會產(chǎn)生很大的噪聲與錯誤,忽視上下文語義結構以及多詞匯語義連貫性等問題,使得特征提取不夠精確,文本分類不夠全面。隨著互聯(lián)網(wǎng)絡的迅猛發(fā)展和數(shù)據(jù)爆炸式增長,人們對特征選擇方法的需求越來越大,出現(xiàn)了基于自然語言處理和深度學習的文本特征選擇方法,語義連貫性和數(shù)據(jù)處理高效性得到了顯著提高[3]。文本特征的主要選取方法見表1。表1主要特征選擇方法簡介2、基于機器學習的網(wǎng)絡敏感信息界定2.1網(wǎng)絡敏感詞類別本研究中的網(wǎng)絡敏感信息專指敏感性質文本信息,具體地說就是政治色彩鮮明或隱蔽的詞匯,攻擊性或威脅性詞匯,也可以指惡意宣泄不愉快情緒而對網(wǎng)絡空間環(huán)境造成沖擊的詞匯。根據(jù)敏感詞歸屬的語義及環(huán)境特征將網(wǎng)絡敏感詞劃分為6個范疇,即宗教信仰范疇,時事政治范疇,國際事務或者國際關系范疇,本國領土主權范疇,法律范疇和社會生活范疇。網(wǎng)絡敏感詞匯的所屬范疇和相應標志性詞匯示如圖1.在實際敏感詞匯的識別中,各種范疇中所含敏感詞都會出現(xiàn)反復[4]。圖1敏感詞類別及對應示例2.2敏感詞表現(xiàn)形式網(wǎng)絡信息中所含敏感詞的表現(xiàn)形式多種多樣,這與其中文漢字及拼音的構造及表現(xiàn)形式密切相關,從中可以看出敏感詞往往呈現(xiàn)出拼音形式,簡稱形式及拆分形式等。為逃避網(wǎng)絡平臺的監(jiān)視和辨認,部分網(wǎng)民會選擇用字母來表述自己的意思。比如,在最近一段時間里,大家都在討論新冠病毒的控制問題,許多人都將怒火發(fā)泄到了武漢市政府身上,一些人在網(wǎng)上留言的時候,都會用“WHZF(武漢政府)”來表達自己的不滿。又比如,當我們看到一些名人的圖片或者錄像時,很多名人的粉絲都會用到"awsl(啊我死了)"這樣的夸張詞語,來表示自己對名人的喜歡。中文最常用的表述方式為簡稱或簡稱。人們習慣用最少的文字來精確地表達自己的意志,例如“犯罪嫌疑人”往往被表示成“嫌犯”。這種簡稱更多地用于人們的日常生活,法律條款的表達,新聞報道等方面[5]。3、基于機器學習的網(wǎng)絡敏感信息感知必要性3.1大規(guī)模數(shù)據(jù)加大敏感信息感知難度無論危害公共安全的行為地點是選擇在真實的地區(qū)還是抽象的網(wǎng)絡平臺上,都會產(chǎn)生幾何級數(shù)增長的數(shù)據(jù),包括與組織相關的人員信息、地理位置、活動范圍和運營策略。數(shù)據(jù)顯示,全球的數(shù)據(jù)總量正在快速增長,在二零一九年數(shù)據(jù)市場已經(jīng)達到了一千八百七十億美元[6]。就大數(shù)據(jù)的類型而言,一般有四類:政府數(shù)據(jù)、企業(yè)大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)和個人大數(shù)據(jù)。詳見圖2。圖2敏感信息與個人信息的關系敏感信息和智能數(shù)據(jù)來源于外界,其中既有政府機關提供的信息,也有犯罪嫌疑人的日?;顒?,如財務、交通、通訊等,還包括互聯(lián)網(wǎng)等。伴隨著科技的不斷發(fā)展,各種有計劃、有預謀的非法組織將戰(zhàn)場轉移到了互聯(lián)網(wǎng)上,情報機構也適時地將自己的陣地轉移到了互聯(lián)網(wǎng)上,并對互聯(lián)網(wǎng)上的信息展開監(jiān)測、跟蹤、處理和分析,以確定目標,這說明了情報工作的結果。與此形成鮮明對比的是,互聯(lián)網(wǎng)上的個人信息已大量占用了人們的工作和娛樂時間,而身份、婚姻狀態(tài)、社會偏好、地理位置等信息則被大量曝光,極易被社會類突發(fā)事件部門所利用。由于數(shù)據(jù)量太大,情報機構不能精確地過濾掉無關的信息,也不能排除公民個人信息,這無疑使敏感信息的處理變得更加復雜。3.2敏感信息采集與處理技術易造成隱私信息泄露數(shù)據(jù)信息安全和大數(shù)據(jù)分析有著千絲萬縷的聯(lián)系,甚至能夠把二者劃上等號。大數(shù)據(jù)環(huán)境下情報采集的路徑大致有網(wǎng)絡監(jiān)控,新聞媒體報道,專項情報數(shù)據(jù)庫的建立,人工情報采集和政府部門等產(chǎn)業(yè)的情報采集。毫無疑問,許多大數(shù)據(jù)處理技術都是有針對性的,能夠有效地解決絕大多數(shù)的網(wǎng)絡安全問題。從現(xiàn)實需求出發(fā),大數(shù)據(jù)處理與分析技術的確應當被用于信息安全與情報工作,但并非完全安全。以數(shù)據(jù)挖掘技術為例,它包括了數(shù)據(jù)采集、預處理、數(shù)據(jù)分析與利用、知識應用(見圖3)。圖3大數(shù)據(jù)處理過程中的隱私泄露數(shù)據(jù)獲取包括用戶不了解數(shù)據(jù)源的選擇,從而帶來潛在威脅;預處理要求濾除無關或者關系不是很好的信息,而用戶又不能了解信息是否得到了妥善處理或者拋棄或者破壞,即使進行了二次利用或者違規(guī)利用也會造成最大的影響。數(shù)據(jù)分析和使用意味著對有用信息的處理,一般來說,數(shù)據(jù)會被去掉身份,但這并不是100%的安全,因為去掉身份的數(shù)據(jù)信息可以和數(shù)據(jù)庫中的其他信息聯(lián)系起來,在受到惡意攻擊的情況下,用戶信息仍然可以被恢復。數(shù)據(jù)挖掘的終極目標在于挖掘蘊藏在數(shù)據(jù)中的寶貴知識,情報機構可將獲取的信息用于對將來可能出現(xiàn)的以公共安全及有關人員為對象的事件進行預測。若現(xiàn)階段信息未被有效儲存,從而造成信息泄露,無疑會給個人數(shù)據(jù)帶來巨大的威脅。由此可見,用于敏感信息采集與加工的大規(guī)模數(shù)據(jù)處理與分析技術并不是絕對安全的。重視數(shù)據(jù)處理中缺乏嚴格監(jiān)督與管理程序、如何保證各項數(shù)據(jù)都能得到適當?shù)谋4媾c保護等問題是今后的工作方向。4、基于機器學習的網(wǎng)絡敏感信息感知框架構建4.1網(wǎng)絡敏感信息感知影響因子根據(jù)網(wǎng)絡敏感信息產(chǎn)生的外部環(huán)境和自身因素,分析網(wǎng)絡敏感信息結果如圖4所示。圖4網(wǎng)絡敏感信息感知影響因子從外部環(huán)境出發(fā),可依據(jù)敏感事件時網(wǎng)絡環(huán)境狀態(tài),敏感詞出現(xiàn)與出現(xiàn)時間及目前網(wǎng)絡監(jiān)管水平等因素來分析。事件環(huán)境:敏感詞必須取決于對某個事件的評價,或者是由這個詞所導致的一系列網(wǎng)絡事件;在上述兩種情形中,事件處理網(wǎng)絡環(huán)境影響了敏感信息感知。事件發(fā)生的時間:主要考慮是需要檢查的資料是否出現(xiàn)在關鍵時期,即所謂特殊時期。特殊時期通常會引起人們對于事件的大量討論或者是沒有根據(jù)的推測,在這一過程中敏感信息的出現(xiàn)是非??赡艿?。詞匯在文本中的位置:互聯(lián)網(wǎng)文本信息采集分析效率與其關鍵詞所處位置緊密相關,實際數(shù)據(jù)表明敏感詞發(fā)生在正文起始處,其對全文的影響大于發(fā)生在正文末尾。詞匯在課文中的出現(xiàn)頻度:所考察信息在課文中所起的作用與其頻度成正相關、頻度高、敏感性高。詞匯呈現(xiàn)方式:前一節(jié)中提到敏感信的呈現(xiàn)方式會影響敏感信息的發(fā)現(xiàn)與感知過程,且呈現(xiàn)方式越繁雜,工作進展越易受影響。對文本的意義:敏感詞為文本做出貢獻,可綜合考慮該詞語在文中出現(xiàn)頻率,字符長度進行計算。4.2網(wǎng)絡敏感信息感知框架構建由于網(wǎng)絡中敏感信息難以被察覺和認知,且難以避免與私人信息產(chǎn)生沖突,所以需要在保證深層次敏感信息精確抽取的前提下降低情報機構工作負荷和難度,提升情報分析準確性、及時性。基于此,互聯(lián)網(wǎng)敏感信息(危及社會公共安全)檢測框架見圖5。圖5基于深度學習方法的網(wǎng)絡敏感信息感知框架由于在互聯(lián)網(wǎng)上跟蹤和發(fā)現(xiàn)敏感信息的具體過程,嚴格控制數(shù)據(jù)來源是重中之重。在互聯(lián)網(wǎng)廣泛普及,視頻監(jiān)控與跟蹤,圖像識別等技術廣泛應用,數(shù)據(jù)傳輸速度日益加快的情況下,網(wǎng)民的線上線下行為極可能得到時刻監(jiān)測。互聯(lián)網(wǎng)中的大部分敏感信息都源于對人日常生活特別是其在線行為的監(jiān)測。該流程隱蔽性強,為國家網(wǎng)絡監(jiān)控部門對網(wǎng)絡空間進行凈化所必需,這些數(shù)據(jù)信息通常由當事人不了解。為避免沖突,首先要在數(shù)據(jù)源中盡可能精確地采集有用信息,以免對非敏感信息產(chǎn)生無效的獲取與利用。這需要情報人員能及時地發(fā)現(xiàn)問題并鎖定目標區(qū)域及人群,同時對網(wǎng)絡監(jiān)測系統(tǒng)的設計提出更高的需求。對數(shù)據(jù)處理技術而言,如何在海量領域與影像中對敏感詞匯進行快速捕獲與精確監(jiān)控具有挑戰(zhàn)性。5、網(wǎng)絡敏感信息感知系統(tǒng)下社會類突發(fā)事件應急處理進程優(yōu)化在社會類突發(fā)事件爆發(fā)之前,若不掌握情報就盲目開展活動,不僅不能抑制社會類突發(fā)事件,而且還會浪費很多人力、物力、財力,更會加劇社會類突發(fā)事件所帶來的危害,因此這時的觀測應屬于廣義上的觀測與防范。社會類突發(fā)事件發(fā)生后,武警現(xiàn)場指揮員要想確保應急處理進程更加順利,就必須在有效的時間里獲得更多的情報,可通過公安“天網(wǎng)工程”“雪亮工程”以及大數(shù)據(jù)平臺來獲得社會面治安狀況等信息,并通過網(wǎng)絡敏感的信息感知系統(tǒng)來了解競爭對手的情況,民情社情,天候地形,電磁環(huán)境以及輿論情況等等,這樣才能更早地一步了解社會類突發(fā)事件的導火索到底是什么,給民眾造成的威脅有多大,又能得到誰的支持,怎樣配合協(xié)同應急處理,才能在社會類突發(fā)事件應急處理中取得突破。這一階段是用來搜集能有助于問題解決的多種有關資料,并為進一步分析判斷奠定所需數(shù)據(jù)基礎。社會類突發(fā)事件行動中武警部隊應加快高新技術的信息化和現(xiàn)代化建設,運用網(wǎng)絡敏感信息感知系統(tǒng)增強信息化應急處理優(yōu)勢。武警指揮員應善于運用信息化通信技術手段和無人化智能化新型裝備來豐富多種觀察,判斷和決策手段,極大地縮短任務部隊應急處理實施時間,并在應急處理過程中切實提髙容錯率,以實現(xiàn)最終制勝。另外,還應加上社會類突發(fā)事件信息的搜集,建立有效的社會類突發(fā)事件怖活動預警體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位人力資源管理制度精彩大全
- 醫(yī)療合作項目合同管理準則
- 高層住宅外墻清洗項目招投標
- 網(wǎng)絡營銷企業(yè)薪酬管理
- 居民區(qū)通風設備安裝合同
- 天津市養(yǎng)老社區(qū)物業(yè)醫(yī)療服務規(guī)范
- 紡織服裝弱電施工合同
- 廣東省廣州市天河區(qū)2023-2024學年高一上學期期末考試數(shù)學試卷(解析版)
- 羅定職業(yè)技術學院《田徑AⅡ》2023-2024學年第一學期期末試卷
- 酒店工程塔吊施工協(xié)議
- 校園生活(2023年北京中考語文試卷散文閱讀題及答案)
- 醫(yī)患溝通學智慧樹知到答案2024年溫州醫(yī)科大學仁濟學院
- 2024數(shù)智化綠色低碳評價管理體系
- (新版)嬰幼兒發(fā)展引導員(高級)技能鑒定理論試題庫資料(含答案)
- 枸杞知識簡介
- 中國式現(xiàn)代化為主題的論文3000字(1) (1)全文
- XX醫(yī)院體檢系統(tǒng)設計方案
- 2024年貴州省衛(wèi)生事業(yè)單位招聘(醫(yī)學基礎知識)考試題庫寶典(含答案)
- 10000字萬能檢討書【九篇】
- 小紅書種草營銷師認證考試題附有答案
- 個人和企業(yè)間資金拆借合同
評論
0/150
提交評論