版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于數(shù)據(jù)流挖掘的熱點(diǎn)事件檢測(cè)方法實(shí)證研究摘要近年來隨著推特、微博等社交媒體平臺(tái)的不斷發(fā)展和流行,大眾對(duì)于社會(huì)事件及國家動(dòng)態(tài)的關(guān)注度和參與度不斷提升,基于這些社交媒體平臺(tái)的事件檢測(cè)算法的研究也因此備受關(guān)注。由于平臺(tái)限制、用戶的發(fā)帖習(xí)慣以及事件的發(fā)展特性等多方面因素的影響,導(dǎo)致數(shù)據(jù)包含的信息少、對(duì)存儲(chǔ)空間及運(yùn)行速度的要求較高,很難直接利用現(xiàn)有的模型或算法進(jìn)行事件檢測(cè)。針對(duì)以上問題,本文將概率圖模型與數(shù)據(jù)流挖掘的方法相結(jié)合,提出了一種在線的熱點(diǎn)事件檢測(cè)模型,主要研究?jī)?nèi)容分為三個(gè)部分:(1)基于概率圖模型對(duì)以數(shù)據(jù)流形式到來的短文本進(jìn)行聚類;(2)利用數(shù)據(jù)流挖掘的方法對(duì)聚類得到的微簇進(jìn)行維護(hù);(3)從模型維護(hù)的微簇中不斷檢測(cè)出新事件。實(shí)驗(yàn)結(jié)果表明,模型在推特等平臺(tái)產(chǎn)生的短文本流數(shù)據(jù)上有較好的表現(xiàn)。關(guān)鍵詞:概率圖模型,數(shù)據(jù)流挖掘,短文本流,在線事件檢測(cè)目錄摘要 IABSTRACT II目錄 III第一章緒論 11.1研究工作的背景與意義 11.2時(shí)域積分方程方法的國內(nèi)外研究歷史與現(xiàn)狀 11.3本文的主要貢獻(xiàn)與創(chuàng)新 21.4本論文的結(jié)構(gòu)安排 3第二章研究相關(guān)的概念及技術(shù)概述 42.1概率圖模型(PGM) 42.1.1貝葉斯網(wǎng)絡(luò) 42.1.2狄利克雷過程 52.2數(shù)據(jù)流挖掘的基本知識(shí) 62.2.1k-means聚類 62.2.2層次聚類 72.3Glove模型 72.4本章小結(jié) 8第三章基于數(shù)據(jù)流挖掘的熱點(diǎn)事件檢測(cè)方法研究 93.1文本文件預(yù)處理 93.2基于概率圖模型聚類 103.3基于數(shù)據(jù)流挖掘的方法維護(hù)微簇 143.4事件檢測(cè) 193.5本章小結(jié) 20第四章實(shí)驗(yàn)結(jié)果及分析 214.1實(shí)驗(yàn)相關(guān)內(nèi)容 214.1.1實(shí)驗(yàn)數(shù)據(jù)集及評(píng)估指標(biāo) 214.1.2實(shí)驗(yàn)采用的參照模型 214.2實(shí)驗(yàn)結(jié)果及分析 224.3本章小結(jié) 27第五章全文總結(jié)與展望 285.1全文工作總結(jié) 285.2后續(xù)工作展望 28參考文獻(xiàn) 30第一章緒論1.1研究工作的背景與意義近年來推特、微博這類社交媒體平臺(tái)不斷發(fā)展和流行,它們逐漸成為了反映民眾生活中各類事件的一面鏡子。一項(xiàng)針對(duì)記者的調(diào)查2017年全球社會(huì)新聞研究2017年全球社會(huì)新聞研究/us/resources/research-reports/2017-global-social-journalism-study/?sf=false.但是,由于這些平臺(tái)對(duì)發(fā)帖長(zhǎng)度的限制以及用戶的發(fā)帖習(xí)慣等各方面因素的影響,導(dǎo)致用戶發(fā)表的帖子一般都比較簡(jiǎn)短,語言表述也比較生活化,這導(dǎo)致其包含的內(nèi)容少,可用信息也比較匱乏。同時(shí),因?yàn)樯鐣?huì)中總是有各種事件不斷的產(chǎn)生,且不同的人對(duì)于同一事件的表述也存在較大差異,這會(huì)給事件的檢測(cè)和區(qū)分帶來困難。并且,熱點(diǎn)事件產(chǎn)生后總是在不停發(fā)酵,事件和相關(guān)帖子的數(shù)量也是不斷增加的,很難直接利用一些主題模型進(jìn)行事件檢測(cè),對(duì)數(shù)據(jù)的存儲(chǔ)是一種極大的挑戰(zhàn),也使得模型的可擴(kuò)展性成為了需要重點(diǎn)攻克的問題。現(xiàn)有的事件檢測(cè)算法仍沒有一個(gè)模型能夠在解決上述問題的同時(shí)體現(xiàn)出事件的演化。但如果能將概率圖模型與數(shù)據(jù)流挖掘結(jié)合起來,利用概率圖模型的優(yōu)勢(shì)在不需要事先確定微簇具體個(gè)數(shù)的情況下,就能夠?qū)Σ粩噍斎氲奈谋緮?shù)據(jù)進(jìn)行聚類,不僅減少了閾值設(shè)定不恰當(dāng)帶來的影響,而且能夠持續(xù)的檢測(cè)新的熱點(diǎn)事件,無需對(duì)數(shù)據(jù)進(jìn)行分片操作;之后再利用數(shù)據(jù)流挖掘的方法對(duì)概率圖模型聚類得到的潛在事件微簇進(jìn)行管理和維護(hù),就能夠?qū)崿F(xiàn)實(shí)時(shí)檢測(cè)社會(huì)事件演化和發(fā)展的目的。而實(shí)時(shí)在線的事件檢測(cè),對(duì)于滿足大眾需求,分析社會(huì)發(fā)展?fàn)顩r都具有非常重要的現(xiàn)實(shí)意義。1.2時(shí)域積分方程方法的國內(nèi)外研究歷史與現(xiàn)狀事件檢測(cè)作為熱點(diǎn)事件檢測(cè)、輿情檢測(cè)等熱門研究的基礎(chǔ),一直以來都受到廣大研究者的關(guān)注。早先有D.M.Blei等人提出的動(dòng)態(tài)主題模型(DTM)[1]、X.Wei等人提出的動(dòng)態(tài)混合模型(DMM)[2],他們均是基于LDA主題模型[3]的基礎(chǔ)上進(jìn)行了改進(jìn),提出了可用于長(zhǎng)文檔數(shù)據(jù)集上的動(dòng)態(tài)事件檢測(cè)算法。但是隨著推特、微博等社交媒體的發(fā)展和流行,基于這些社交媒體平臺(tái)的事件檢測(cè)開始吸引大家的目光。由于平臺(tái)限制了單個(gè)文本長(zhǎng)度,這些模型不再適用于這些平臺(tái)產(chǎn)生的短文本數(shù)據(jù)。為此,童薇等人提出了一種高效的微博事件檢測(cè)算法(EDM)[4],他們?cè)谖恼轮刑岢隹梢酝ㄟ^綜合數(shù)據(jù)語義、時(shí)序和社交關(guān)系三個(gè)方面的特征,整體考慮了微博帖子及發(fā)帖人之間的多種相似度,從而實(shí)現(xiàn)事件檢測(cè);Lei-LeiShi等人則是提出了一種以人為中心的熱點(diǎn)事件檢測(cè)和傳播網(wǎng)絡(luò)社會(huì)計(jì)算模型(HCSC)[5],通過篩選核心用戶及關(guān)鍵帖子,建立以人為中心的關(guān)系網(wǎng)絡(luò),不斷地模擬事件在用戶之間的傳遞情況,結(jié)合LDA模型進(jìn)行事件的檢測(cè)。但這些算法都需要對(duì)數(shù)據(jù)進(jìn)行分批并建立具體的社交關(guān)系網(wǎng)絡(luò),不僅僅需要處理大量的文本數(shù)據(jù),還需要綜合考慮各種用戶關(guān)系,并且無法體現(xiàn)出事件實(shí)時(shí)的演化情況。MateuszFedoryszak等人在社會(huì)數(shù)據(jù)流上的實(shí)時(shí)事件檢測(cè)[6]一文中提出可以將事件看作一組實(shí)體及其相關(guān)元數(shù)據(jù)在一段時(shí)間上構(gòu)成的集群鏈,實(shí)體指的是一個(gè)文本、圖像一類的內(nèi)容所包含的標(biāo)簽,如命名實(shí)體、hashtags等,而元數(shù)據(jù)則是指的如實(shí)體頻率等實(shí)體相關(guān)信息。也就是說每個(gè)事件在一個(gè)時(shí)間片內(nèi)都是由一組這樣的實(shí)體和相關(guān)的元數(shù)據(jù)構(gòu)成的集群進(jìn)行表示的,如果該事件存續(xù)到下一時(shí)間片,則該事件在兩個(gè)時(shí)間片中的集群就會(huì)被鏈接,而這樣構(gòu)成的集群鏈長(zhǎng)度就代表了事件的存續(xù)時(shí)間。當(dāng)出現(xiàn)無法與前一時(shí)刻存在的集群進(jìn)行鏈接的集群時(shí),就認(rèn)為是一個(gè)新的事件產(chǎn)生了,但是此方法同樣也存在一定的缺陷,即需要根據(jù)時(shí)間對(duì)數(shù)據(jù)進(jìn)行分片,分片的大小對(duì)事件檢測(cè)的效果存在影響。而由QuanzhiLi等人提出的依據(jù)社交媒體的實(shí)時(shí)新事件檢測(cè)方法[7],通過將文本拆分成如專有名詞、hashtag、動(dòng)詞等語義分類,再通過對(duì)各分類求相似度并加權(quán)求和得到最終的相似度值,根據(jù)閾值區(qū)分是聚類到已有微簇還是單獨(dú)形成一個(gè)新的簇,此后,簇的維護(hù)過程中還采用了大量的經(jīng)驗(yàn)參數(shù),使得模型的可解釋性較差,雖然該模型實(shí)現(xiàn)了實(shí)時(shí)在線的事件檢測(cè),但由于是根據(jù)相似度進(jìn)行聚類的,所以模型需要設(shè)置較多閾值。1.3本文的主要貢獻(xiàn)與創(chuàng)新本文以短文本流數(shù)據(jù)作為數(shù)據(jù)集,基于概率圖挖掘自動(dòng)決定微簇的個(gè)數(shù),不需要對(duì)數(shù)據(jù)進(jìn)行分批。由于不是采用相似度進(jìn)行聚類,所以在此聚類過程中不需要設(shè)定閾值。且本文首次將概率圖模型與數(shù)據(jù)流挖掘結(jié)合起來用于事件檢測(cè)。相較于現(xiàn)有的事件檢測(cè)算法,其能動(dòng)態(tài)實(shí)時(shí)的反映出事件的演化和發(fā)展過程,是事件檢測(cè)研究領(lǐng)域的一次重大創(chuàng)新。1.4本論文的結(jié)構(gòu)安排本論文總共分為五個(gè)章節(jié),具體結(jié)構(gòu)安排如下:第一章為緒論,主要介紹研究工作的背景和意義,以及國內(nèi)外相關(guān)研究工作的歷史和現(xiàn)狀,描述了本文的主要貢獻(xiàn)、創(chuàng)新所在,并給出了論文的主要結(jié)構(gòu)安排;第二章為研究相關(guān)的概念和技術(shù)概要,本章簡(jiǎn)要介紹了本文在進(jìn)行事件檢測(cè)時(shí)所使用的概率圖模型及數(shù)據(jù)流挖掘方法的相關(guān)概念的基本知識(shí);第三章為本文所提出的基于數(shù)據(jù)流挖掘的熱點(diǎn)事件檢測(cè)方法的具體介紹,本章解釋了本文所提出的算法模型的結(jié)構(gòu)及工作原理;第四章為實(shí)驗(yàn)的結(jié)果,本章主要展示了針對(duì)本文所提出方法進(jìn)行的實(shí)驗(yàn)得到的結(jié)果;第五章提供了對(duì)本文整體工作的總結(jié)及開展后續(xù)研究工作的方向和思路。第二章研究相關(guān)的概念及技術(shù)概述本章將介紹本文提出的算法模型使用到的概率圖模型相關(guān)的基本概念,并就采用的數(shù)據(jù)流挖掘領(lǐng)域的基本方法以及Glove模型進(jìn)行簡(jiǎn)單介紹。2.1概率圖模型(PGM)概率圖模型并不是一種單一的模型,而是一類結(jié)合了概率論知識(shí)和圖論知識(shí),利用圖結(jié)構(gòu)來表示概率相關(guān)關(guān)系的模型的總稱。相較于其他學(xué)習(xí)算法,概率圖模型的優(yōu)勢(shì)在于可以將一些我們已知的信息利用圖結(jié)構(gòu)帶入到模型中,但這也就往往意味著在我們使用概率圖模型之前需要知道具體的圖結(jié)構(gòu)?;镜母怕蕡D模型包括三種:貝葉斯網(wǎng)絡(luò)、馬爾可夫模型以及隱馬爾可夫模型。而本文提出的算法模型采用的概率圖模型即為貝葉斯網(wǎng)絡(luò)。2.1.1貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)是一種利用條件概率和先驗(yàn)知識(shí)對(duì)現(xiàn)實(shí)情況進(jìn)行描述的概率圖模型。它的本質(zhì)是通過先驗(yàn)知識(shí)來確定一個(gè)隨機(jī)變量之間的關(guān)聯(lián)約束關(guān)系,從而便于得到所需的條件概率。貝葉斯網(wǎng)絡(luò)是根據(jù)貝葉斯公式導(dǎo)出的貝葉斯分?jǐn)?shù)進(jìn)行記分的,通過對(duì)所有可能的情況進(jìn)行記分,從而篩選得到記分分?jǐn)?shù)最高的那一個(gè)作為最優(yōu)選擇。貝葉斯分?jǐn)?shù)的計(jì)算方式如2-1所示:scoreBG:d=logPd第一部分logPdG表示的是我們所使用的數(shù)據(jù)與給定圖模型之間的擬合程度,而第二部分logP(G)則是表示圖所估計(jì)的圖模型與先驗(yàn)知識(shí)構(gòu)成的先驗(yàn)圖之間的擬合程度。而第一部分所表示的數(shù)據(jù)與圖模型之間的擬合程度又可以表示成如下的式2P(d|G)=P(d|G,θG)P(θ式中P(d|G,θG)是一個(gè)似然函數(shù),它所表示的是在給定圖模型G及參數(shù)θG的情況下,數(shù)據(jù)d發(fā)生的可能性,而P(θG|G)表示的是參數(shù)的先驗(yàn)估計(jì),即在給定圖模型G本文提出的模型中采用了狄利克雷過程對(duì)先驗(yàn)參數(shù)進(jìn)行建模。2.1.2狄利克雷過程狄利克雷過程(DirichletProcess)被廣泛的運(yùn)用在非參數(shù)貝葉斯模型中作為先驗(yàn)概率,最常見的使用方式是作為狄利克雷過程混合模型(DPMM)的先驗(yàn)。在對(duì)其的多種理解中,中餐館過程(ChineseRestaurantProcess)以及波利亞缸(Polyaurn)模型是在實(shí)踐中最常被提及的兩種。中餐館過程(CRP)中餐館過程(ChineseRestaurantProcess)是非常典型的狄利克雷過程混合模型。其巧妙地將狄利克雷過程理解為餐館的顧客落座問題,假設(shè)存在一個(gè)中餐館,而在這個(gè)餐館中可以存在無限多張桌子,除了當(dāng)?shù)谝粋€(gè)顧客到來時(shí),將會(huì)直接在第一張桌子坐下,其后到來的每一個(gè)顧客都有兩種選擇,既可以選擇坐在已經(jīng)有人的桌子上,也可以選擇找到一張新的桌子坐下,而選擇的標(biāo)準(zhǔn)就是坐在同一張桌子的顧客都喜歡吃桌上的同一盤菜。則此后到來的第n個(gè)顧客選擇在已經(jīng)有nk人坐下的第k張桌子坐下的概率計(jì)算如式2-3probabilityk=nkα+n?1而該顧客選擇在一張沒人坐的新桌子坐下的概率計(jì)算如式2-4:probabilitynew=αα+n?1由此可見預(yù)設(shè)參數(shù)α的值會(huì)影響顧客選擇兩種方式的概率大小,這個(gè)參數(shù)數(shù)值越大,則顧客坐到一張沒有人的新桌子上的概率也就隨之變大。在實(shí)際的聚類操作中,選擇落座的顧客就代表著那些依次到來的新數(shù)據(jù),桌子則表示各簇,那些坐到同一張桌子的顧客就意味著那些被聚類到同一個(gè)微簇的數(shù)據(jù),他們都喜歡同一道菜則說明這些數(shù)據(jù)之間具有較高的相似性。這樣就可以用一個(gè)中餐館顧客落座的問題非常形象的解釋基于狄利克雷模型對(duì)先驗(yàn)參數(shù)建模得到的概率圖模型所實(shí)現(xiàn)的聚類過程。波利亞缸(Polyaurn)模型不同于中餐館過程的顧客落座假設(shè),波利亞缸模型描述的是一種球、缸假設(shè)。它是假設(shè)有一個(gè)空缸,以及一個(gè)顏色分布H,第一次只能選擇從顏色分布里選取一個(gè)顏色涂在球上扔進(jìn)缸中,而在之后的每一次則都可以有兩種選擇:(1)從缸中隨機(jī)抽取一個(gè)球后放入兩個(gè)同色球,其概率計(jì)算如式2-5:probabilitycolor=ncolorα+n?1其中,ncolor代表缸中涂有顏色color的球的個(gè)數(shù),n-1代表缸中球的個(gè)數(shù),α(2)從顏色分布H中選取新的顏色涂在一個(gè)新的球上放入缸中,其概率計(jì)算如式2-6:probabilitynew=αα+n?1從上式可以很明顯的看出波利亞缸(Polyaurn)模型與中餐館過程其實(shí)存在著對(duì)應(yīng)關(guān)系。在波利亞缸模型中的顏色其實(shí)就對(duì)應(yīng)著中餐館模型中的桌子,選擇摸球并放入兩個(gè)同色球的操作其實(shí)就相當(dāng)于中餐館模型中新來的顧客選擇一個(gè)已經(jīng)有人的桌子坐下的過程,選擇選取新的顏色涂到小球加入缸中就類似于中餐館模型中顧客選擇一個(gè)新的空桌子坐下的行為。因此,波利亞缸模型同樣可以很好的描述聚類問題。2.2數(shù)據(jù)流挖掘的基本知識(shí)聚類作為數(shù)據(jù)流挖掘的一種重要方法,屬于無監(jiān)督算法的一種,它能夠在數(shù)據(jù)沒有標(biāo)簽的情況下自動(dòng)的將數(shù)據(jù)劃分成我們所需要的幾類,因此一直被廣泛運(yùn)用于各個(gè)領(lǐng)域內(nèi)。它可以根據(jù)聚類示劃分?jǐn)?shù)據(jù)的標(biāo)準(zhǔn)不同大致分為五類,分別是基于劃分、層次、密度、網(wǎng)格和其他對(duì)數(shù)據(jù)進(jìn)行劃分。而k-means算法及層次聚類作為兩種較為常用的方法,時(shí)常出現(xiàn)在各項(xiàng)研究中。2.2.1k-means聚類k-means聚類在開始前需要確定最終聚類得到的簇個(gè)數(shù)k,并隨機(jī)初始化k各數(shù)據(jù)點(diǎn)作為簇的質(zhì)心。在此后,對(duì)集合中的每個(gè)除了質(zhì)心的點(diǎn)計(jì)算它與所有質(zhì)心的距離,并將它們劃分到距離最近的那個(gè)質(zhì)心歸屬的集合中去。當(dāng)所有的數(shù)據(jù)都被歸屬到某個(gè)集合后,重新計(jì)算k個(gè)集合的質(zhì)心,如果重新計(jì)算得到的質(zhì)心與之前的質(zhì)心間的距離符合我們的需求,也就是說小于實(shí)現(xiàn)設(shè)定的某個(gè)閾值,則算法就結(jié)束了,得到的k個(gè)集合就是數(shù)據(jù)的最終劃分結(jié)果。因?yàn)閗-means聚類本質(zhì)上是要最小化平方誤差,也就是每個(gè)數(shù)據(jù)點(diǎn)到其所屬集合質(zhì)心的距離之和最小,所以當(dāng)完成一次劃分后新求得的質(zhì)心與原本質(zhì)心之間的距離較大時(shí),則說明該種劃分方式并沒有達(dá)到較為理想的效果,就需要利用新求得的k個(gè)質(zhì)心作為基礎(chǔ),迭代的重復(fù)上述的步驟,直到最終的結(jié)果小于設(shè)定的閾值,符合我們的預(yù)期為止。k-means作為一種被廣泛運(yùn)用的聚類算法,具有許多顯著的優(yōu)勢(shì)。比如,它的原理簡(jiǎn)單,容易實(shí)現(xiàn),參數(shù)少,收斂速度也非常的迅速,并且聚類得到的簇種的數(shù)據(jù)點(diǎn)也較為密集。但同時(shí),它唯一的參數(shù)k需要預(yù)先給定,無法對(duì)許多現(xiàn)實(shí)存在的持續(xù)增加的數(shù)據(jù)進(jìn)行聚類,且初始化的質(zhì)心對(duì)聚類結(jié)果有著較大的影響,所以在設(shè)定時(shí)需要十分謹(jǐn)慎,最終得到的結(jié)果也僅僅只是局部最優(yōu)解。2.2.2層次聚類層次聚類則可以很好的規(guī)避k-means需要預(yù)先設(shè)置簇個(gè)數(shù)k值以及選擇初始化k個(gè)質(zhì)心的問題。如同它的名字一般,層次聚類就是要對(duì)數(shù)據(jù)一層一層的進(jìn)行聚類,既可以自下而上的凝聚,也可以是自上而下的分割。由于在本文中運(yùn)用到的理論主要與凝聚法相關(guān),所以分割法就不作過多闡述了。層次聚類凝聚法的思想是在一開始的時(shí)候就直接將每一個(gè)數(shù)據(jù)點(diǎn)當(dāng)作一個(gè)獨(dú)立的類簇結(jié)構(gòu),計(jì)算兩個(gè)類簇之間的距離,找到距離最小的兩個(gè)類簇進(jìn)行合并,形成一個(gè)新的類簇,通過重復(fù)上述的步驟對(duì)所有的類簇不斷進(jìn)行合并,直到達(dá)到預(yù)期的結(jié)果為止,這個(gè)預(yù)期結(jié)果可以是對(duì)簇?cái)?shù)目的約束也可以是對(duì)合并時(shí)簇間距離的約束。層次聚類相較于其他聚類方法的最大優(yōu)勢(shì)在于它可以一次得到最終的聚類結(jié)果,不需要進(jìn)行多次的迭代,也不需要預(yù)設(shè)任何的初值。但它有一個(gè)與k-means相同的缺點(diǎn),那就是由于它使用了貪心算法,得到的最終結(jié)果也僅僅只是局部最優(yōu)解,并不一定是全局最優(yōu)解。2.3Glove模型在涉及自然語言處理的工作中大都會(huì)用到wordembedding來獲得單詞在空間中的向量表示,隨著對(duì)該領(lǐng)域的工作不斷深入,在獲得優(yōu)質(zhì)的詞向量方面的需求不斷增加,訓(xùn)練詞向量的方法也不再局限于最簡(jiǎn)單的one-hot方式。而在這里將要介紹的既不是由DeerwesterS等人在1990年首次提出的利用文本的全局統(tǒng)計(jì)特征基于奇異值分解的LSA算法[8],也不是利用局部的上下文特征通過滑動(dòng)窗口來計(jì)算獲得詞向量的word2vec算法,而是結(jié)合了以上兩種算法的特點(diǎn),由JeffreyPennington等人在2014年提出的同時(shí)包含了語料庫的全局統(tǒng)計(jì)特征以及局部的上下文特征的無監(jiān)督詞向量訓(xùn)練方法Glove模型[9]。Glove模型中引入了表示單詞與單詞之間在文本中共同出現(xiàn)的次數(shù)關(guān)系的共現(xiàn)矩陣X,在共現(xiàn)矩陣中出現(xiàn)的元素Xij表示的是單詞j出現(xiàn)在單詞i的上下文中的次數(shù),而Xi則表示單詞i上下文中所有單詞總共出現(xiàn)的次數(shù)。因此,單詞j出現(xiàn)在單詞i的上下文中的概率就可以表示如式子2Pij=Xij因此,Glove模型就構(gòu)造出了共現(xiàn)概率矩陣(Co-occurrenceProbabilitiesMatrix),利用三個(gè)單詞i、j、k之間的Ratio來表示它們之間的相關(guān)性,而Ratio的計(jì)算方式如式2-8:Ratio=PikPij也就是說,Glove模型訓(xùn)練得到的單詞i、j、k的詞向量必須包含共現(xiàn)概率矩陣中的信息,那么這三個(gè)向量在通過某種特定的函數(shù)進(jìn)行變換后所表現(xiàn)出來的規(guī)律要和Ratio是一致的。從提出Glove模型的文章中可以看出,Glove模型因?yàn)榻Y(jié)合了LSA和word2vec的優(yōu)點(diǎn),克服了LSA計(jì)算代價(jià)大、對(duì)所有單詞權(quán)重一致的問題,同時(shí)解決了word2vec沒有充分利用全部語料特征的缺陷,使得其呈現(xiàn)出來的性能遠(yuǎn)超其他兩種方法。在使用Glove模型時(shí),既可以利用自己的語料庫進(jìn)行訓(xùn)練,也可以使用官方提供的預(yù)訓(xùn)練詞向量。當(dāng)前,已經(jīng)有基于多種數(shù)據(jù)集如維基百科、推特等訓(xùn)練得到的多種維度的預(yù)訓(xùn)練詞向量可供使用。2.4本章小結(jié)本章主要介紹了在研究過程中設(shè)計(jì)的相關(guān)概念,并就使用到的技術(shù)進(jìn)行了簡(jiǎn)要概述。主要涉及了概率圖模型以及狄利克雷過程的兩種常見理解,即中餐館過程(ChineseRestaurantProcess)以及波利亞缸(Polyaurn)模型、數(shù)據(jù)流挖掘領(lǐng)域用來處理無標(biāo)簽數(shù)據(jù)劃分的兩種常用聚類算法,k-means聚類及層次聚類、用于訓(xùn)練詞向量的無監(jiān)督算法模型Glove。第三章基于數(shù)據(jù)流挖掘的熱點(diǎn)事件檢測(cè)方法研究基于前面所提及的相關(guān)概念及技術(shù),本文提出了一種基于數(shù)據(jù)流挖掘的熱點(diǎn)事件檢測(cè)方法,圖3-1描述了該方法檢測(cè)熱點(diǎn)事件的總體流程,其包括文本文件處理模塊、基于概率圖模型聚類模塊、微簇維護(hù)模塊以及事件檢測(cè)模塊。圖3-1基于數(shù)據(jù)流挖掘的熱點(diǎn)事件檢測(cè)方法檢測(cè)流程3.1文本文件預(yù)處理文本文件預(yù)處理模塊要在每條文本文件數(shù)據(jù)到來時(shí)先對(duì)其進(jìn)行預(yù)處理以便于后續(xù)模型對(duì)文本信息的利用。此步驟需要在每個(gè)文件原有信息的基礎(chǔ)上獲取其統(tǒng)計(jì)信息,并將它們作為文件的特征存儲(chǔ)起來,并傳入模型的下一個(gè)模塊。文本文件預(yù)處理模塊具體的執(zhí)行流程如圖3-2所示。圖3-2文本文件預(yù)處理流程當(dāng)一條短文本數(shù)據(jù)傳入模型時(shí),首先將這個(gè)文本文件所包含的完整句子拆分成單個(gè)單詞并按原順序存儲(chǔ)到一個(gè)列表中,并為未在模型中出現(xiàn)的單詞分配id號(hào),為了便于存儲(chǔ)和之后的訪問,單詞的id號(hào)由模型進(jìn)行統(tǒng)一的統(tǒng)計(jì)單詞詞頻及詞對(duì)的共現(xiàn)分?jǐn)?shù)作為文本文件的特征存儲(chǔ)。詞對(duì)的共現(xiàn)分?jǐn)?shù)cwij體現(xiàn)的是單詞之間的關(guān)聯(lián)關(guān)系,其計(jì)算公式如3-1cwij=freifre其中,frei和frej表示在這個(gè)文本文件中單詞i和然后將根據(jù)每個(gè)單詞的詞性及上下文信息將所有單詞劃分成10種詞性類,分別是名詞類、動(dòng)詞類、代詞類、形容詞類、數(shù)詞類、副詞類、冠詞類、介詞類、連詞類和感嘆詞類,每個(gè)單詞在每個(gè)分類中僅可出現(xiàn)一次,將分類得到的結(jié)果作為該文本文件的特征之一存儲(chǔ)起來。也就是說經(jīng)過預(yù)處理模塊得到的文本文件除了包含原本的句子信息,如文件序號(hào)、句子內(nèi)容、用于檢驗(yàn)?zāi)P托Ч姆诸悩?biāo)簽外,還增加了各個(gè)單詞對(duì)應(yīng)的詞頻信息、詞對(duì)共現(xiàn)分?jǐn)?shù)信息以及詞性類劃分結(jié)果。在完成文本文件預(yù)處理后將其傳入模型中保存。3.2基于概率圖模型聚類對(duì)完成預(yù)處理的文本文件采用根據(jù)中餐館過程(ChineseRestaurantProcess)作為先驗(yàn)概率進(jìn)行建模得到的概率圖模型進(jìn)行聚類。此過程是基于KumarJay等人的OSDM模型[10]改進(jìn)得到的。在此聚類過程中需要用到的文本信息僅僅是文件序號(hào)及經(jīng)過文本預(yù)處理得到的統(tǒng)計(jì)信息,而其具體的句子內(nèi)容在此過程中則不再需要。具體的聚類過程如圖3-3所示。圖3-3基于概率圖模型聚類流程當(dāng)預(yù)處理后的文本文件輸入到模型中后,將通過公式3-2求得文件d聚類到各個(gè)已有微簇z的概率大小,同時(shí)通過公式3-3可求得文件d單獨(dú)聚類形成一個(gè)新的微簇的概率大?。簆zd=z=pzd=new=式3-2分為三個(gè)部分相乘,式子3-3則分為兩個(gè)部分,它們與式3-2的前兩個(gè)部分具有相同的含義。第一部分利用中餐館過程(CRP)對(duì)聚類到各個(gè)集群的先驗(yàn)概率進(jìn)行建模,用于表示聚類集群的完整性,而包含超參數(shù)β的第二部分描述了需要聚類的文件與各個(gè)微簇間的同質(zhì)性,即其在文本統(tǒng)計(jì)信息間的相似性,并且在這一過程中會(huì)對(duì)那些具有代表性的單詞進(jìn)行獎(jiǎng)勵(lì),僅存在于式子3-2中的第三部分則描述了文件d與微簇z中的詞對(duì)共現(xiàn)信息的權(quán)重大小,也就是說同時(shí)出現(xiàn)在文件d中及微簇z中的詞對(duì)越多,文件d越可能被聚類到微簇z中。兩式中的各個(gè)字符含義如下表3-1所示:表3-1公式3-2及3-3中各字符含義字符名稱含義w、d、z單詞、文件、微簇n微簇z已經(jīng)包含的文件個(gè)數(shù)D整個(gè)模型仍在維護(hù)的活躍微簇中文件總個(gè)數(shù)α集中參數(shù),其值越大新到文件聚類形成新微簇的概率大小相對(duì)于聚類到某個(gè)已有微簇的概率大小也會(huì)越大,更易聚類為一個(gè)新微簇。β超參數(shù),弱化0值的影響V當(dāng)前模型中維護(hù)的詞典大小,即所有活躍微簇中存在的不同單詞的個(gè)數(shù)n分別表示在文件d和微簇z中單詞w的出現(xiàn)頻次大小n分別表示在文件d和微簇z中的單詞總數(shù)量lcf表示單詞w的全局代表性大小,即單詞的特異性程度cw單詞i與單詞j在微簇中的詞對(duì)共現(xiàn)權(quán)重其中代表單詞的特異性程度的lcfw和微簇的詞對(duì)共現(xiàn)權(quán)重cwij的計(jì)算方式如式子3-4和3lcfw=log|Z|cwij=在計(jì)算時(shí)cwij時(shí)僅將那些同時(shí)出現(xiàn)在文件d和微簇z的單詞wi及wj當(dāng)分別計(jì)算得到新到文本文件聚類到各個(gè)已有微簇的概率大小以及單獨(dú)聚類形成一個(gè)新的微簇的概率大小后,通過比較選出概率最大的微簇進(jìn)行聚類。如果聚類形成新微簇的概率最大,則首先從模型中獲取新微簇的id號(hào)以此初始化一個(gè)新的微簇,再將文本文件添加到該微簇中。將文本文件加入到指定微簇的實(shí)施過程如算法3-1所示:算法3-1聚類文本文件d到指定微簇z輸入:文本文件d、指定微簇z序號(hào)輸出:完成聚類信息更新后的微簇z更新微簇z的時(shí)戳I_cl為最新文件序號(hào)更新微簇z的衰退權(quán)重I_cd為1.0在文件與微簇的對(duì)應(yīng)字典中加入文件d與微簇z的對(duì)應(yīng)關(guān)系將文件d加入到微簇z的文件列表I_cnfor單詞w1in更新單詞w1if單詞w1not在微簇的詞頻表及詞對(duì)共現(xiàn)矩陣分配單詞w1將微簇z中單詞w1的詞頻加上文件d中的單詞w在微簇z的總單詞數(shù)量上加上文件d中的單詞w1for單詞w2inif單詞w1不是wif單詞w2notin微簇z的詞對(duì)共現(xiàn)矩陣單詞將文件d的w1和welse將文件d的w1和w將不存在于微簇z詞性分類對(duì)應(yīng)位置的文件d中的單詞對(duì)應(yīng)添加到微簇z中更新微簇z的文件增量inc,在其值加上1在算法3-1中,最后更新的微簇的文件增量信息inc存儲(chǔ)的是微簇z在上次更新微簇的特征向量及關(guān)鍵詞信息后聚類到微簇中的文件個(gè)數(shù)。由于更新微簇的特征向量及關(guān)鍵詞需要花費(fèi)大量的時(shí)間,且當(dāng)微簇包含的文件數(shù)量越來越多時(shí),少量的文件聚類進(jìn)去并不會(huì)造成微簇的特征向量和關(guān)鍵詞的改變,所以,有文本聚類到微簇中時(shí)僅需要記錄下微簇距離上次更新特征向量和關(guān)鍵詞的文件增量數(shù),在后續(xù)流程中以此為依據(jù)判定是否有必要進(jìn)行更新,即可在較小的影響范圍內(nèi)節(jié)約較多的時(shí)間。3.3基于數(shù)據(jù)流挖掘的方法維護(hù)微簇在通過概率圖模型完成了文本文件的初步聚類后,就會(huì)得到若干個(gè)微簇。不同的人在描述同一事件時(shí)由于表達(dá)差異,最終得到的文本也會(huì)有較大差異。所以這些微簇既可能分別代表一個(gè)獨(dú)立的事件,也可能由多個(gè)微簇構(gòu)成一個(gè)事件。且在聚類的過程中,由于一些噪聲詞的影響就可能導(dǎo)致單個(gè)文本文件聚類到錯(cuò)誤的微簇中,如果不將這些錯(cuò)誤聚類的內(nèi)容剔除,將會(huì)對(duì)后續(xù)的聚類過程產(chǎn)生較大的影響。所以,利用微簇的特征向量等信息,結(jié)合數(shù)據(jù)流挖掘的方法對(duì)完成初步聚類的微簇進(jìn)行維護(hù)就顯得尤為必要。對(duì)微簇的具體維護(hù)內(nèi)容可分為三個(gè)部分,包括:過時(shí)微簇的刪除、聚類錯(cuò)誤的剔除以及相似微簇的融合。其中,過時(shí)微簇的刪除是在每次進(jìn)行文本文件聚類前進(jìn)行的,其主要的執(zhí)行過程分為兩步:對(duì)所有微簇的過時(shí)檢測(cè)和輸出檢出的過時(shí)微簇。具體的執(zhí)行過程如算法3-2及3-3所示:算法3-2過時(shí)微簇的檢測(cè)輸入:模型的信息、微簇的衰退系數(shù)LAMDA輸出:更新后的模型信息初始化過時(shí)微簇的閾值threshold以及待刪除微簇詞典for微簇in模型的所有微簇:讀取微簇最后一次更新的時(shí)戳lastupdate及微簇的衰退權(quán)重cd根據(jù)當(dāng)前的時(shí)戳timestamp計(jì)算衰退量power=2計(jì)算并存儲(chǔ)微簇新的衰退權(quán)重cd=cd*powerifcd<threshold:將微簇id作為鍵,微簇信息作為值存入待刪除微簇詞典for微簇id及微簇信息in待刪除微簇詞典:刪除微簇算法3-3過時(shí)微簇的刪除輸入:模型信息、過時(shí)微簇z的id、過時(shí)微簇z信息輸出:更新后的模型信息if微簇idin模型已經(jīng)檢測(cè)到的事件列表中:從模型事件列表中將微簇信息刪去,并將這一情況輸出for單詞win微簇z的詞頻字典:從模型的單詞-微簇對(duì)應(yīng)關(guān)系表中刪除單詞w與微簇z的對(duì)應(yīng)關(guān)系篩選出微簇z中包含單詞w的文件,放入列表listOfDocToDeletefor文件inlistOfDocToDelete:從模型的單詞-文件對(duì)應(yīng)關(guān)系表中刪除單詞w與文件的對(duì)應(yīng)關(guān)系if模型中不再包含單詞w:從模型的各項(xiàng)表單中刪除單詞w的相關(guān)信息for文件in微簇z的文件列表:從模型存儲(chǔ)的所有文件完整信息中將文件刪去從模型各項(xiàng)表單(除存儲(chǔ)過時(shí)刪除信息的表單)中將與文件相關(guān)的信息刪去將文件加入到模型存儲(chǔ)過時(shí)刪除信息的表單if微簇idin模型中存儲(chǔ)的聚類錯(cuò)誤剔除微簇-文件對(duì)應(yīng)關(guān)系表:for文件in微簇z中因聚類錯(cuò)誤剔除刪除的文件列表:將文件加入到模型存儲(chǔ)過時(shí)刪除信息的表單從微簇z中因聚類錯(cuò)誤剔除刪除的文件列表刪除微簇id對(duì)應(yīng)鍵值對(duì)從模型中刪除微簇z的信息而其余兩種對(duì)微簇的維護(hù),即聚類錯(cuò)誤的剔除以及相似微簇的融合均發(fā)生在文本文件聚類完成時(shí),且由于單個(gè)文本文件的聚類進(jìn)入到一個(gè)微簇中并不會(huì)對(duì)微簇在空間的分布產(chǎn)生較大影響,同時(shí)為了節(jié)約微簇維護(hù)所花費(fèi)的時(shí)間,僅當(dāng)微簇聚類完成時(shí)包含文件條數(shù)是10的倍數(shù)才進(jìn)行融合檢測(cè)及對(duì)應(yīng)的融合操作。而當(dāng)微簇包含的數(shù)量小于一定數(shù)量時(shí)并不能很好的確定該微簇真正描述的主要事件,所以,僅當(dāng)一個(gè)微簇?cái)?shù)量大于20時(shí),我們才會(huì)在融合相關(guān)操作執(zhí)行完成后進(jìn)行聚類錯(cuò)誤剔除操作。而進(jìn)行聚類錯(cuò)誤剔除的對(duì)象會(huì)因?yàn)槭欠襁M(jìn)行了融合操作而不同,若未進(jìn)行融合操作,則對(duì)象為完成聚類的當(dāng)前微簇,若進(jìn)行了融合操作,則對(duì)象為融合形成的新的較大微簇。具體的判定邏輯如圖3-4所示:圖3-4執(zhí)行聚類錯(cuò)誤剔除及相似微簇融合的判定邏輯在進(jìn)行融合檢測(cè)時(shí),將結(jié)合數(shù)據(jù)流挖掘的方法,利用微簇在空間中的分布情況,基于微簇的特征向量檢測(cè)微簇之間的相似度,通過與融合閾值F_THRESHOLD進(jìn)行比較判定是否需要進(jìn)行微簇融合。而微簇的特征向量和關(guān)鍵詞的更新僅發(fā)生在微簇融合檢測(cè)和事件檢測(cè)兩個(gè)步驟中。在計(jì)算微簇的特征向量時(shí),首先需要分別計(jì)算出微簇的十個(gè)詞性分類中每個(gè)單詞對(duì)微簇的代表性大小,然后從每個(gè)詞性分類中選出五個(gè)最能代表微簇在這一詞性維度特征的單詞,當(dāng)微簇在這一詞性維度包含的單詞不足五個(gè)時(shí),則將這一詞性維度的單詞全部選入。單詞對(duì)微簇代表性大小的計(jì)算方式如式子3-6所示:Rw→z=nzw其中,nzw為單詞w在微簇z中的出現(xiàn)頻詞大小,它代表的是單詞w在微簇中的重要程度,是單詞w對(duì)微簇z的局部代表性大小,而代表單詞的特異性程度的lcfw當(dāng)篩選出每個(gè)詞性維度最具有代表性的數(shù)個(gè)單詞后,在每個(gè)詞性維度的范圍內(nèi)對(duì)這些單詞的Rw→z進(jìn)行歸一化,將其轉(zhuǎn)化為計(jì)算微簇z在該詞性維度的特征向量的權(quán)重,并利用在Twitter數(shù)據(jù)集預(yù)訓(xùn)練好的Glove模型得到單詞的詞向量,當(dāng)該單詞在預(yù)訓(xùn)練Glove模型的詞典中不存在時(shí),則利用python的enchant庫取得該單詞的相似單詞作為代替,根據(jù)對(duì)應(yīng)的權(quán)重加權(quán)求和得到微簇z在此維度的特征向量,最后將這些向量按序拼接形成一個(gè)250而微簇的關(guān)鍵詞則相當(dāng)于求取微簇特征向量過程中的副產(chǎn)物,它是在篩選每個(gè)詞性維度的代表性單詞時(shí),不區(qū)分維度的將所有單詞及其代表性大小以字典形式進(jìn)行存放。需要注意的是,每個(gè)單詞只會(huì)被存放一次。當(dāng)微簇的所有受檢單詞都存入字典后,對(duì)單詞的代表性大小進(jìn)行排序,最終篩選出對(duì)微簇的代表性排名前10的單詞作為微簇的關(guān)鍵詞,在這些關(guān)鍵詞中就隱含了該微簇所屬事件的主題信息。需要注意的是,因?yàn)槲⒋氐奈募隽縤nc記錄的是微簇在每次更新微簇的特征向量和關(guān)鍵詞后聚類的文件個(gè)數(shù),所以每次對(duì)微簇的特征向量和關(guān)鍵詞進(jìn)行更新操作后,都要將微簇的文件增量inc清0,使其重新進(jìn)入新的累計(jì)周期。在取得被檢微簇的最新特征向量后,融合檢測(cè)要求出模型中所有包含文件數(shù)量大于10條的微簇特征向量與當(dāng)前被測(cè)微簇的特征向量之間的余弦相似度,將那些余弦相似度值大于預(yù)設(shè)閾值F_threshold的微簇存放在一個(gè)列表中,最終選擇出列表中余弦相似度值最高的那個(gè)微簇與被測(cè)微簇進(jìn)行融合。這一方式類似于數(shù)據(jù)流挖掘中的層次聚類,將基于概率圖模型聚類得到的微簇視作一個(gè)個(gè)數(shù)據(jù)點(diǎn),每次總是從達(dá)到融合閾值的微簇中選擇余弦相似度值最大的兩個(gè)微簇進(jìn)行融合。在對(duì)兩個(gè)微簇進(jìn)行融合時(shí),要根據(jù)其優(yōu)先級(jí)選擇將哪個(gè)微簇作為被融合微簇融合到另一個(gè)融合微簇中,一般認(rèn)為存在于模型的事件列表中的事件微簇比普通微簇具有較高優(yōu)先級(jí),將作為融合微簇保留下來。而融合過程的操作則類似于文本文件的聚類過程與刪除舊微簇過程的結(jié)合,具體的步驟如算法3-4所示::算法3-4相似微簇的融合輸入:模型信息、需要融合的微簇z1和輸出:融合完成后的微簇clu1根據(jù)優(yōu)先級(jí)從微簇z1和z2中選擇出融合微簇clu將clu1和clu2中更大的最新時(shí)間戳cl及衰退權(quán)重cd作為融合后微簇for文件idinclu2將文件id與微簇的對(duì)應(yīng)關(guān)系表值從clu2修改為將文件id加入到clu1for單詞w1inclu更新單詞w1與微簇cluif單詞w1notin微簇clu在微簇clu1的詞頻表及詞對(duì)共現(xiàn)矩陣分配單詞w在微簇clu1的單詞w1的詞頻上加上微簇clu2在微簇clu1的總單詞數(shù)量上加上微簇clu2中的單詞for單詞w2in微簇cluif單詞w1不是wif單詞w2notin微簇clu1將微簇clu2的w1和w2else將微簇clu2的w1和w2將不存在于微簇clu1詞性分類對(duì)應(yīng)位置的微簇clu1中的單詞對(duì)應(yīng)添加到微簇將模型中微簇clu2因聚類錯(cuò)誤剔除而刪去的文件信息轉(zhuǎn)存到微簇clu刪除模型中存儲(chǔ)的微簇clu2if微簇clu2將微簇clu2計(jì)算并更新微簇clu1在對(duì)微簇執(zhí)行聚類錯(cuò)誤剔除時(shí),剔除關(guān)鍵詞需要滿足三個(gè)條件:①不是無關(guān)詞,即不是那些所有微簇都可能出現(xiàn)的冠詞介詞等信息,可根據(jù)lcfw大小進(jìn)行判斷;②該詞在其他微簇占比更重且具有相對(duì)高頻,即該詞在其他微簇出現(xiàn)的文件數(shù)量占簇總文件數(shù)比例更高,且數(shù)量大于被檢微簇的lcf對(duì)選定的潛在聚類錯(cuò)誤文件進(jìn)行剔除的具體操作如算法3-5所示:算法3-5潛在錯(cuò)誤聚類文件剔除輸入:模型信息、需要剔除的文件doc和所在微簇z輸出:剔除完成后的微簇z及更新后的模型信息從模型中讀出需要剔除的文件具體信息從模型的文件-微簇對(duì)應(yīng)關(guān)系字典中刪去文件doc的id與微簇z的對(duì)應(yīng)關(guān)系從微簇z的文件列表中刪去文件doc的idfor單詞win文件doc的詞頻表:從模型的單詞-文件對(duì)應(yīng)關(guān)系字典中將文件doc的id刪去從微簇z的單詞w詞頻中將文件doc包含的單詞w詞頻減去從微簇z的總單詞量中將文件doc包含的單詞w詞頻減去if微簇z中單詞w的詞頻等于0:從模型的單詞-微簇對(duì)應(yīng)關(guān)系字典中將微簇z刪去刪去微簇z的詞對(duì)共現(xiàn)矩陣中單詞w的對(duì)應(yīng)空間else:for單詞w2in文件doc的詞頻表:if單詞w不是單詞w2:從微簇z單詞w與w2的共現(xiàn)權(quán)重減去文件doc中它們的共現(xiàn)權(quán)重if微簇z中單詞w與w2的共現(xiàn)權(quán)重等于0:從微簇z的詞對(duì)共現(xiàn)信息中刪去單詞w與w2的共現(xiàn)關(guān)系if模型中單詞w不再有對(duì)應(yīng)的文件存在:刪去模型中與單詞w相關(guān)的所有列表信息將模型中存儲(chǔ)的文件doc的詳細(xì)信息刪去將文件doc的id存儲(chǔ)到模型用于存儲(chǔ)由聚類錯(cuò)誤剔除的文件信息的微簇-文件關(guān)系字典中結(jié)合數(shù)據(jù)流挖掘的方法,經(jīng)過過時(shí)微簇的刪除,相似微簇融合以及聚類錯(cuò)誤剔除三個(gè)步驟,一次完整的微簇維護(hù)流程就完成了。如果維護(hù)完成的微簇還不存在于模型的事件列表中同時(shí)滿足特定的條件,則會(huì)對(duì)該微簇進(jìn)行事件檢測(cè),以判斷該微簇是否可能時(shí)一個(gè)獨(dú)立的新事件。3.4事件檢測(cè)基于對(duì)熱點(diǎn)事件的理解,我們認(rèn)為僅當(dāng)人們對(duì)一個(gè)討論對(duì)象的討論數(shù)量大于一定程度且不同于先前的討論對(duì)象時(shí),才可以認(rèn)為它是一個(gè)被人們所關(guān)注的熱點(diǎn)事件,所以事件檢測(cè)也僅發(fā)生在完成聚類錯(cuò)誤剔除的微簇對(duì)象上。判斷一個(gè)微簇是否是一個(gè)獨(dú)立事件的評(píng)判標(biāo)準(zhǔn)決定了最終的事件檢測(cè)效果。本文基于對(duì)熱點(diǎn)事件的理解,認(rèn)為當(dāng)一個(gè)微簇能夠被進(jìn)行事件檢測(cè)時(shí)則意味著它滿足人們對(duì)其討論數(shù)量大于一定程度這一要求,而它與先前討論對(duì)象的差異則可基于數(shù)據(jù)流挖掘的方法,通過計(jì)算該微簇的特征向量與已經(jīng)檢測(cè)到的事件之間的余弦相似度進(jìn)行判定。具體的事件檢測(cè)操作如算法3-6所示:算法3-6事件檢測(cè)輸入:模型信息、被檢微簇z、獨(dú)立閾值THRESHOLD輸出:更新事件集合后的模型信息if模型中的事件字典為空:if微簇z的文件增量inc不為0:更新微簇z的特征向量和關(guān)鍵詞將被檢測(cè)微簇z的id-關(guān)鍵字以鍵值對(duì)形式加入模型事件字典將檢測(cè)到的事件微簇id及關(guān)鍵詞輸出else:if微簇z的文件增量inc不為0:更新微簇z的特征向量和關(guān)鍵詞設(shè)置標(biāo)志new為Truefor微簇clusin模型的事件字典:if微簇clus的文件數(shù)小于微簇clus的文件增量inc的20倍:更新微簇z的特征向量和關(guān)鍵詞if微簇clus與微簇z特征向量間的余弦相似度大于THRESHOLD:置標(biāo)志new為Falseif標(biāo)志new為True:將被檢測(cè)微簇z的id-關(guān)鍵字以鍵值對(duì)形式加入模型事件字典將檢測(cè)到的事件微簇id及關(guān)鍵詞輸出3.5本章小結(jié)本文提出了一種結(jié)合概率圖模型和數(shù)據(jù)流挖掘的熱點(diǎn)事件檢測(cè)方法,首先通過概率圖模型對(duì)預(yù)處理后以數(shù)據(jù)流形式到來的短文本文件進(jìn)行聚類,每個(gè)到來的文本文件只會(huì)有兩種類型的聚類結(jié)果:聚類到已有微簇或單獨(dú)形成一個(gè)微簇,最終的聚類結(jié)果由概率圖模型計(jì)算得到的概率決定。隨后,將基于數(shù)據(jù)流挖掘的方法對(duì)聚類的到的若干微簇進(jìn)行維護(hù),主要分為三個(gè)維護(hù)步驟:刪除過時(shí)微簇、相似微簇融合及聚類錯(cuò)誤剔除,以控制模型種集群數(shù)量,節(jié)約存儲(chǔ)空間,同時(shí)刪除前一步產(chǎn)生的錯(cuò)誤聚類結(jié)果對(duì)后續(xù)聚類的消極影響。最后,將基于微簇的空間分布從模型維護(hù)的微簇中檢測(cè)出當(dāng)前人們關(guān)注的熱點(diǎn)事件,并得到其事件關(guān)鍵字以展示其事件內(nèi)容。參考文獻(xiàn)第四章實(shí)驗(yàn)結(jié)果及分析4.1實(shí)驗(yàn)相關(guān)內(nèi)容4.1.1實(shí)驗(yàn)數(shù)據(jù)集及評(píng)估指標(biāo)實(shí)驗(yàn)采用了兩個(gè)真實(shí)數(shù)據(jù)集及兩個(gè)綜合數(shù)據(jù)集,其具體信息如下:News:在2014年由JianhuaYin[11]等人為短文本聚類模型而收集而來,并由KumarJay等人[10]對(duì)其進(jìn)行一系列數(shù)據(jù)清洗操作,如刪去停用詞、將所有字母轉(zhuǎn)換成小寫等后得到的。其內(nèi)容為屬于152個(gè)主題的11109個(gè)新聞標(biāo)題。Tweets:此數(shù)據(jù)集存在于TRECmicroblog/data/microblog.html上,包含了與269個(gè)主題相關(guān)聯(lián)的30322/data/microblog.htmlNews-TC和Tweets-TC:由KumarJay等人在[10]一文中對(duì)News和Tweets根據(jù)主題進(jìn)行排序后,分別分為16個(gè)大塊后再對(duì)每個(gè)塊內(nèi)數(shù)據(jù)打亂順序后得到。本次實(shí)驗(yàn)對(duì)模型聚類效果采用的評(píng)估指標(biāo)有五種,分別為:歸一化互信息(NMI)、同質(zhì)性(Homogeneity)、同質(zhì)性與完整性的調(diào)和平均值(V-Measure)、聚類準(zhǔn)確性(Accuracy)、微簇純度(Purity)。其中歸一化互信息評(píng)估了整個(gè)模型的聚類質(zhì)量;好的聚類結(jié)果應(yīng)該是每個(gè)微簇只包含一類數(shù)據(jù),此為同質(zhì)性,同時(shí)每一類數(shù)據(jù)也僅被聚類到一個(gè)單一微簇中,此為完整性,但是同質(zhì)性和完整性往往難以兼顧,所以同質(zhì)性和完整性的調(diào)和平均(V-Measure)能夠反映出二者的綜合情況。上述五種評(píng)估指標(biāo)得分均在[0,1]區(qū)間,其值越接近于1則說明模型在這一評(píng)估方面表現(xiàn)越好。4.1.2實(shí)驗(yàn)采用的參照模型本次實(shí)驗(yàn)分別采用了五種模型作為參照模型,下面是對(duì)它們的簡(jiǎn)短介紹:DTM:由D.M.Blei等人在2006年提出的[1]動(dòng)態(tài)主題模型,其被用于處理一系列有序文件的聚類問題。Sumblr:由LidanShou等人在2013年提出的[12]一種在線的推文聚類模型,它僅通過單向的一輪處理就能夠有效的聚類并維護(hù)好集群的信息。DMM:由JianhuaYin等人在2014年提出的[11]用于短文本聚類的狄利克雷多項(xiàng)式混合模型,其不將數(shù)據(jù)對(duì)時(shí)間的依賴性考慮在內(nèi)。MStreamF-O(MF-O):由JianhuaYin等人在2018年提出的[13]用于一次處理一批包含無限潛在主題的短文本的兩種模型之一,其的特點(diǎn)是一次性完成聚類的過程。OSDM:由KumarJay等人[10]在2020年發(fā)表于ACL的文章中提出的一種基于概率圖模型進(jìn)行短文本數(shù)據(jù)流聚類的模型,其在短文本流聚類領(lǐng)域處于較為先進(jìn)的水平。本文中提及的上述五種模型在News、Tweets及News-TC三種數(shù)據(jù)集上的五種指標(biāo)結(jié)果參考KumarJay等人在[11]通過反復(fù)實(shí)驗(yàn)得到的最佳結(jié)果。4.2實(shí)驗(yàn)結(jié)果及分析在實(shí)驗(yàn)過程中,我們將參數(shù)α設(shè)置為0.002,參數(shù)β設(shè)置為0.0004,而衰退系數(shù)LAMDA設(shè)置為0.000006。模型中涉及的兩個(gè)閾值:事件的獨(dú)立閾值設(shè)置為0.707,其為45度的余弦值保留三位小數(shù)得到,而在經(jīng)過實(shí)驗(yàn)后從0.750和0.866中選擇出了具有更好事件檢測(cè)結(jié)果的0.866作為微簇的融合閾值,其為30度的余弦值保留三位小數(shù)得到。由于眾多事件檢測(cè)算法所基于的數(shù)據(jù)結(jié)構(gòu)不同,大多數(shù)的模型所使用的數(shù)據(jù)都由研究人員自行收集和構(gòu)造得到,無法直接進(jìn)行比較,所以接下來將依次展示本文所提出的模型在聚類及最終熱點(diǎn)事件檢出方面的效果。在表4-1中展示了本文提出的模型HEDBDSM與前面提到的五種參照模型在News、Tweets、News-TC及Tweets-TC四種數(shù)據(jù)集上得到的聚類效果在NMI、Homogeneity、V-Measure、Purity和Accuracy五種聚類模型的評(píng)價(jià)指標(biāo)上的得分:表4-1本文模型HEDBDSM與參照模型在五種評(píng)價(jià)指標(biāo)上的得分 Alg.Eva.NewsTweetsNews-TCTweets-TCHEDBDSMOSDMMF-OSumblrDTMDMMNMI0.8120.8150.6850.5750.8080.5860.8530.8360.7460.6980.8000.6360.8660.8580.8030.7230.8100.5820.8740.8470.822//0.269HEDBDSMOSDMMF-OSumblrDTMDMMHomogeneity0.8270.9510.6540.5470.8330.5880.9080.9360.6950.7580.8220.6220.8980.9000.7780.7470.8370.5650.9350.9390.798//0.275HEDBDSMOSDMMF-OSumblrDTMDMMV-Measure0.8110.8050.6840.5750.8080.5860.8510.8310.7440.6960.8000.6360.8670.8570.8030.7230.8100.5820.8720.8420.821//0.269HEDBDSMOSDMMF-OSumblrDTMDMMPurity0.7150.9070.5520.4140.7670.4560.8570.8900.5290.6090.7490.4730.8450.8510.6360.5800.7650.3980.8980.9140.658//0.175HEDBDSMOSDMMF-OSumblrDTMDMMAccuracy0.7150.8800.4200.6060.6470.3340.6620.6650.2460.5390.2460.1500.7720.7690.5840.6530.2940.0730.6640.5650.753//0.131表4-1中加粗的結(jié)果為在列所對(duì)應(yīng)的數(shù)據(jù)集、行所對(duì)應(yīng)的指標(biāo)上表現(xiàn)最好的一項(xiàng)。從表中可以看出,在算法聚類效果的總體評(píng)價(jià)指標(biāo)NMI及同質(zhì)性和完整性的調(diào)和平均V-Measure這兩項(xiàng)對(duì)模型的聚類能力有較為整體的評(píng)估的指標(biāo)上,本文提出的模型在四個(gè)數(shù)據(jù)集上幾乎都有最好的聚類表現(xiàn)。而在其他三個(gè)指標(biāo)上,本文所提出的模型也與表現(xiàn)最優(yōu)的模型之間的得分差距并不大。尤其是在News-TC及Tweets-TC這兩個(gè)根據(jù)現(xiàn)實(shí)事件發(fā)展情況做出了調(diào)整的數(shù)據(jù)集上,我們的模型HEDBDSM有較為突出的表現(xiàn)。而在熱點(diǎn)事件檢出方面,我們認(rèn)為一個(gè)事件從誕生到發(fā)展成為一個(gè)熱點(diǎn)事件,必須滿足兩個(gè)要求:①討論量達(dá)到一定值;②發(fā)生關(guān)注度的集中增加。因此,我們將以上兩個(gè)條件具象化為:①該真實(shí)分類至少包含20條文本數(shù)據(jù);②曾經(jīng)在某一段時(shí)間內(nèi)該真實(shí)分類的文本密集出現(xiàn),這一點(diǎn)將利用滑動(dòng)窗口進(jìn)行篩選,滑動(dòng)窗口越大,表示認(rèn)定密集的時(shí)間跨度越大,而屬于該真實(shí)分類的文本數(shù)據(jù)在此滑動(dòng)窗口占比越大,則說明該增長(zhǎng)需要達(dá)到的密集程度越大。通過以上兩個(gè)具象化的條件,我們利用數(shù)據(jù)本身的真實(shí)分類構(gòu)造出在根據(jù)事件發(fā)展情況進(jìn)行了調(diào)整的數(shù)據(jù)集合News-TC和Tweets-TC上的熱點(diǎn)事件集合(以下簡(jiǎn)稱真實(shí)熱點(diǎn)事件)與我們所檢測(cè)到的熱點(diǎn)事件微簇內(nèi)容進(jìn)行比較。得到的結(jié)果如下表所示:表4-2在News-TC和Tweets-TC上的熱點(diǎn)事件檢測(cè)效果 事件檢測(cè)效果滑動(dòng)窗口占比News-TCTweets-TC檢出率精準(zhǔn)檢出率檢出率精準(zhǔn)檢出率15/10055/60(0.887)51/60(0.850)57/60(0.950)55/60(0.917)20/10040/44(0.909)37/44(0.841)36/39(0.923)34/39(0.872)25/10029/31(0.935)27/31(0.871)25/26(0.962)24/26(0.923)10/3037/40(0.925)34/40(0.850)35/38(0.921)34/38(0.895)15/3011/11(1.000)11/11(1.000)7/7(1.000)7/7(1.000)5/1046/51(0.902)43/51(0.843)52/57(0.912)50/57(0.877)表4-2中的檢出率代表真實(shí)熱點(diǎn)事件在我們檢出的熱點(diǎn)事件微簇中有與之相對(duì)應(yīng)的微簇的在真實(shí)熱點(diǎn)事件中的占比,而精準(zhǔn)檢出率則是在真實(shí)熱點(diǎn)事件中滿足檢出率條件的同時(shí),與真實(shí)熱點(diǎn)事件對(duì)應(yīng)的檢出熱點(diǎn)事件微簇中的主要成員同樣為該真實(shí)熱點(diǎn)事件的占比。從表中我們可以看到在兩個(gè)數(shù)據(jù)集上,除了當(dāng)滑動(dòng)窗口最大占比最低的情況,也就是說對(duì)熱點(diǎn)事件的集中增長(zhǎng)這一條件要求最低的情況下,我們的模型HEDBDSM均能達(dá)到90%以上的熱點(diǎn)事件檢出率,而精準(zhǔn)檢出率也均在84%以上。并且,我們的模型能夠反映出熱點(diǎn)事件討論量實(shí)時(shí)變化情況以及該事件所對(duì)應(yīng)的關(guān)鍵詞,圖4-1中分別展示了在News-TC和Tweets-TC上整個(gè)數(shù)據(jù)集所囊括的時(shí)間跨度上檢出的熱點(diǎn)事件討論量的變化情況,并對(duì)每種顏色所代表的檢出熱點(diǎn)事件對(duì)應(yīng)的微簇序號(hào)以及關(guān)鍵詞作了標(biāo)注。(a)(b)圖4-1在數(shù)據(jù)集News-TC和Tweets-TC上模型檢出的熱點(diǎn)事件討論量實(shí)時(shí)變化情況及關(guān)鍵詞(a)在News-TC數(shù)據(jù)集上得到的結(jié)果;(b)在Tweets-TC數(shù)據(jù)集得到的結(jié)果在圖中,如果代表事件討論量的折現(xiàn)急速上升,說明當(dāng)前熱度不斷上升,而當(dāng)折現(xiàn)趨于平緩時(shí)則說明已經(jīng)關(guān)注度變少,討論量已經(jīng)幾乎不再增加。當(dāng)折現(xiàn)出現(xiàn)輕微的下降說明模型對(duì)該微簇中的可能存在的錯(cuò)誤聚類數(shù)據(jù)進(jìn)行了清理,而當(dāng)一個(gè)熱點(diǎn)事件出現(xiàn)直線下降的情況時(shí),則說明該事件被模型檢測(cè)到過時(shí),也就是沒有關(guān)注度了,就要從模型所維護(hù)的數(shù)據(jù)中清理掉。由此可見,HEDBDSM模型能夠直觀的反映出一個(gè)事件討論量的變化情況,從而反映出一個(gè)事件的熱度變化。模型在提取熱點(diǎn)事件關(guān)鍵詞時(shí),以關(guān)鍵詞的代表性大小按序輸出,排序越靠前的關(guān)鍵詞越重要。以News-TC中檢測(cè)到的第一個(gè)事件,也就是序號(hào)為4的事件微簇為例,其所包含的是真實(shí)標(biāo)簽分類為1號(hào)的現(xiàn)實(shí)事件,經(jīng)過人工檢視,其描述的是日本侵入中國防空識(shí)別區(qū),中國軍官予以警示這一事件。從圖4-1中現(xiàn)實(shí)的關(guān)鍵詞提取結(jié)果中截取得到圖4-2:圖4-2模型檢測(cè)到的序號(hào)為4的熱點(diǎn)事件微簇對(duì)應(yīng)事件關(guān)鍵詞根據(jù)圖中內(nèi)容,本文所提出的HEDBDSM模型針對(duì)這一事件提取出的十個(gè)關(guān)鍵詞分別是:“china”、“zone”、“air”、“defense”、“japan”、“bomber”、“disputed”、“airspace”、“island”、“flight”,這十個(gè)詞清晰的表述了此熱點(diǎn)事件的發(fā)生對(duì)象為中國與日本兩國,以及事件的大致內(nèi)容為中國和日本之間一次有爭(zhēng)議的空域飛行。可見,HEDBDSM模型能夠較好的提取出能夠較好表述熱點(diǎn)事件內(nèi)容的關(guān)鍵詞。4.3本章小結(jié)本章通過與DTM、Sumblr、MStreamF-O、DMM和OSDM五個(gè)模型在News、Tweets、News-TC和Tweets-TC四個(gè)短文本數(shù)據(jù)集上的聚類結(jié)果在NMI、Homogeneity、V-Measure、Purity和Accuracy五個(gè)聚類算法評(píng)價(jià)指標(biāo)方面的評(píng)分進(jìn)行比較,展示了本文所提出的模型HEDBDSM對(duì)短文本數(shù)據(jù)流具有較好的聚類效果,并且通過表格和圖例的方式,表現(xiàn)了HEDBDSM能夠較為準(zhǔn)確的檢測(cè)出短文本數(shù)據(jù)流中隱含的熱點(diǎn)事件及關(guān)鍵詞的能力,取得了預(yù)期的效果。
第五章全文總結(jié)與展望5.1全文工作總結(jié)本文就基于數(shù)據(jù)流挖掘的方法進(jìn)行熱點(diǎn)事件檢測(cè)這一課題進(jìn)行了研究,提出了一種結(jié)合概率圖模型和數(shù)據(jù)流挖掘的方法基于推特等社交平臺(tái)產(chǎn)生的短文本數(shù)據(jù)流進(jìn)行熱點(diǎn)事件檢測(cè)的方法HEDBDSM。此方法首次將數(shù)據(jù)流挖掘的方法與熱點(diǎn)事件檢測(cè)這一研究課題結(jié)合起來,是熱點(diǎn)事件檢測(cè)領(lǐng)域的一次巨大創(chuàng)新。HEDBDSM模型在聚類效果上相較于短文本流聚類領(lǐng)域處于領(lǐng)先地位的已有算法也具有十分優(yōu)異的表現(xiàn),能夠較為準(zhǔn)確的從龐大的數(shù)據(jù)流中檢測(cè)出熱點(diǎn)事件,并抽取出熱點(diǎn)事件的關(guān)鍵詞。5.2后續(xù)工作展望本文提出的HEDBDSM模型雖然達(dá)到了預(yù)期目標(biāo),但由于沒有與之完全匹配的數(shù)據(jù)集用以模型的實(shí)驗(yàn),不能很好的驗(yàn)證模型對(duì)熱點(diǎn)事件的檢驗(yàn)?zāi)芰?,同時(shí)在獲取微簇的空間特征,計(jì)算各個(gè)微簇間的空間距離的時(shí)候產(chǎn)生了較為大量的計(jì)算開銷,對(duì)模型處理數(shù)據(jù)的速度產(chǎn)生了一定的影響,針對(duì)以上問題,后續(xù)工作將主要分為兩個(gè)部分開展:爬取推特?cái)?shù)據(jù)上用戶發(fā)表的短文本數(shù)據(jù),按照討論的事件及事件發(fā)布的時(shí)間整理生成適用與HEDBDSM模型的熱點(diǎn)事件檢測(cè)數(shù)據(jù)集。改進(jìn)微簇特征向量的計(jì)算策略,減少對(duì)微簇空間特征的重復(fù)計(jì)算,以提升模型的運(yùn)行速度,節(jié)省計(jì)算開銷。參考文獻(xiàn)BleiDM,LaffertyJD.Dynamictopicmodels[C
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度國家級(jí)創(chuàng)新平臺(tái)財(cái)政資金股權(quán)投資委托管理合同3篇
- 二零二五年度新型住宅小區(qū)開發(fā)商委托專業(yè)物業(yè)管理地下車庫服務(wù)合同3篇
- 二零二五年度LED燈具研發(fā)生產(chǎn)與安裝服務(wù)合同模板2篇
- 二零二五年度旅游度假村個(gè)人開發(fā)承包合同示例3篇
- 二零二五年度國有企業(yè)員工持股計(jì)劃股權(quán)轉(zhuǎn)讓合同3篇
- 二零二五年度影視作品角色形象使用權(quán)許可合同3篇
- 二零二五年度板材夾板加工定制專項(xiàng)合同2篇
- 海南醫(yī)學(xué)院《生物醫(yī)藥進(jìn)展專題1》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025版鉆井平臺(tái)打井工程維護(hù)保養(yǎng)合同2篇
- 海南衛(wèi)生健康職業(yè)學(xué)院《網(wǎng)絡(luò)應(yīng)用開發(fā)》2023-2024學(xué)年第一學(xué)期期末試卷
- 兒科護(hù)理安全警示課件
- 2024-2025學(xué)年新疆省克孜勒蘇柯爾克孜自治州三年級(jí)數(shù)學(xué)第一學(xué)期期末統(tǒng)考試題含解析
- 一般固廢處理流程
- 舊設(shè)備拆除合同安全責(zé)任書
- 2025年佛山順德區(qū)大良街道辦事處綜合治理辦公室招考聘用專職網(wǎng)格員管理單位筆試遴選500模擬題附帶答案詳解
- 幼兒園一日常規(guī)安全管理
- 考研心理學(xué)專業(yè)基礎(chǔ)(312)研究生考試試題及解答參考(2025年)
- 2024-2025學(xué)年人教版生物學(xué)七年級(jí)上冊(cè)期末復(fù)習(xí)練習(xí)題(含答案)
- 《AIGC應(yīng)用實(shí)戰(zhàn)(慕課版)》-課程標(biāo)準(zhǔn)
- 《安全生產(chǎn)治本攻堅(jiān)三年行動(dòng)方案(2024-2026年)》子方案合集
- 2024-2025學(xué)年遼寧省小學(xué)五年級(jí)上學(xué)期期末英語試題及解答參考
評(píng)論
0/150
提交評(píng)論