《概率主題模型》PPT課件.ppt_第1頁
《概率主題模型》PPT課件.ppt_第2頁
《概率主題模型》PPT課件.ppt_第3頁
《概率主題模型》PPT課件.ppt_第4頁
《概率主題模型》PPT課件.ppt_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

概率主題模型 Probabilistic Topic Models,靳 婷,目 錄,引言 TF-IDF模型 LSI模型(Latent Semantic Index,潛在語義索引) 概率主題模型簡介 一元混合模型(Mixture of unigrams) PLSI模型(Probabilistic Latent Semantic Index, 概率潛在語義索引) LDA模型(Latent Dirichlet Allocation) 模型描述 抽取算法,TF-IDF模型,主要思想: 建立一個矩陣|V|*|D|, |V|詞典中單詞的個數(shù),|D|語料庫中文本的 TF:對于每一個詞,在所有文本中出現(xiàn)的次數(shù) IDF:包含這個詞的文本數(shù)的倒數(shù) 貢獻: 不足: 不對語義進行識別 存儲空間、計算量非常大,長度不固定的文本,長度固定的矩陣,LSI模型(Latent Semantic Index,潛在語義索引),奇異值分解:,對角矩陣,行代表一個詞,列代表一個文檔,概率主題模型,主要思想 文檔是若干主題的混合分布 每個主題又是一個關(guān)于單詞的概率分布,一元混合模型(Mixture of unigrams),一元模型:每個文本的詞語都是獨立地從一個多項式分布產(chǎn)生,簡單直觀的詞頻概率模型,沒有考慮文本的主題,一元混合模型(Mixture of unigrams),首先選擇一個主題z,然后根據(jù)條件多項式 獨立地生成該文本的N個詞語,每個文本的概率為:,這個模型只允許一篇文本有一個主題,p(z)是z的分布,p(w|z)可看作一個k|V|的矩陣,一元混合模型(Mixture of unigrams),V = Film, Music, Tax, Million, Student, Teacher, School,T = Arts, Budgets, Education. k = 3 p(w|z)是37矩陣,若p(w|z)的第1行表示主題Education, 這個主題的文本中Student, Teacher, School的詞頻會高些,該行的行向量所表示的分布 p(w|z)會在Student, Teacher, School附近出現(xiàn)峰值 若第2行表示主題Budgets,p(w|z)就會在 TAX,MILLION附近出現(xiàn)峰值 在生成一篇文檔前先隨機選出p(w|z)的第z行(根據(jù)分布p(z));再依次隨機選出第z行的w1,w2, wN列(每次選取都根據(jù)分布p(w|z)),這就生成了文本中的所有單詞,PLSI模型(Probabilistic Latent Semantic Index, 概率潛在語義索引),放棄了LSI所用的矩陣轉(zhuǎn)換的方法,采用生成模型 引入了“潛在主題”一個隨機生成過程當中的潛在變量,PLSI模型(續(xù)),PLSI 是一個k*|D|矩陣 是先驗概率:只建立在已見的訓(xùn)練集的基礎(chǔ)上,訓(xùn)練集之外的未見文本,沒有一個合適的先驗概率 訓(xùn)練樣本增加,矩陣的大小也線性增加,存在過度擬合問題 離散,不同主題之間在概率上是相互獨立的,LDA模型(Latent Dirichlet Allocation),非監(jiān)督機器學(xué)習(xí) 識別隱含的主題信息 Dirichlet概率分布,連續(xù)分布,可以給未知文本分配屬于某個主題集的概率,產(chǎn)生一個主題的集合,LDA模型(續(xù)),假設(shè)有 個主題,所給文本中的第 個詞匯 可以表示如下: ,潛在變量,表明第 個詞匯記號 取自該主題 ,詞匯 記號屬于主題 的概率 ,給出主題 屬于當前文本的概率,LDA模型(續(xù)),表示對于主題 , 個詞匯上的多項分布 表示對于文本 , 個主題上的多項分布,LDA模型(續(xù)),文本上的主題分布,主 題,主題上的單詞分布,單 詞,文 本,LDA模型(續(xù)),LDA概率主題模型生成文本的過程: 根據(jù)泊松分布 得到文本的單詞數(shù)目 根據(jù)Dirichlet分布 得到該文本的一個主題分布概率向量 對于該文本 個單詞中的每一個單詞 從 的多項式分布隨機選擇一個主題 從主題 的多項式條件概率分布選擇一個單詞作為,LDA模型(續(xù)),Choose parameter p(); For each of the N words w: Choose a topic z p(z|); Choose a word w p(w|z); 其中是一個1k的隨機行向量,p()是的分布,它的具體函數(shù)形式就是Dirichlet分布,這一分布保證的k個分量 _1,_2,_k都取連續(xù)的非負值,且_1 + _2 + + _k = 1 z_n是離散隨機變量,在主題T中取k個離散值,p(z|)是給定時z的條件分布,它的具體函數(shù)形式很簡單,就是把直接拿來作為概率值 p(z = i|) = _i,也就是說z取第 1,2,k個主題的概率分別是_1,_2,_k w_n是離散隨機變量,在詞匯表V中取|V|個離散值,p(w|z)是給定z_n時 w的條件分布,看作k|V|的矩陣,LDA模型(續(xù))-生成過程,先隨機生成一個1k的向量(根據(jù)Dirichlet分布p()) 然后隨機選取p(w|z)的第z_1行(根據(jù)分布p(z|)) 接著隨機選取z_1行的w_1列(根據(jù)分布p(w|z = z_1)),同樣的方法依次選出z_2,w_2,z_N,w_N,Mixture of unigram, PLSI, LDA,EM(Expectation Maximization)算法,期望最大化算法,分為兩步 E-Step:estimate the expected v

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論