Python自然語言處理 課件10-1-詞嵌入算法_第1頁
Python自然語言處理 課件10-1-詞嵌入算法_第2頁
Python自然語言處理 課件10-1-詞嵌入算法_第3頁
Python自然語言處理 課件10-1-詞嵌入算法_第4頁
Python自然語言處理 課件10-1-詞嵌入算法_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)與自然語言處理Python自然語言處理第十章CONTENT目錄

01詞嵌入算法03循環(huán)神經(jīng)網(wǎng)絡(luò)02訓(xùn)練詞向量實踐04Seq2Seq模型實戰(zhàn)課前回顧常見機(jī)器學(xué)習(xí)方法無監(jiān)督學(xué)習(xí)的文本分類文本分類實戰(zhàn)文本聚類實戰(zhàn)深度學(xué)習(xí)概述深度學(xué)習(xí)(DeepLearning)方法基于人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork)自動學(xué)習(xí)合適的特征與多層次的表達(dá)與輸出

應(yīng)用于信息抽取、詞性標(biāo)注、搜索引擎和推薦系統(tǒng)等方面使用詞向量來表示各個級別的元素本章概述

深度學(xué)習(xí)算法:詞嵌入

循環(huán)神經(jīng)網(wǎng)絡(luò)模型

Seq2Seq實例詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型詞嵌入算法

詞嵌入算法:一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)據(jù)模型依靠系統(tǒng)復(fù)雜程度和調(diào)節(jié)內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達(dá)到處理信息的目的其核心為上下文表達(dá)和上下文與目標(biāo)詞匯之間的映射關(guān)系詞向量

詞向量(WordEmbedding)離散表示(One-Hot):把每個詞表示為一個長向量。這個向量的維度是詞表大小,向量中只有一個維度的值為1,其余維度為0例:蘋果[0,0,0,1,0,0,0,0,0,……]缺點:無法捕獲詞與詞之間的相似性詞向量

分布式表示:將每個詞映射到K維實數(shù)向量,并根據(jù)詞之間的距離,作為判斷它們之間的語義相似度的標(biāo)準(zhǔn)word2vec模型優(yōu)點:詞之間存在相似關(guān)系詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型word2vec簡介

word2vec:用于訓(xùn)練詞向量的工具神經(jīng)網(wǎng)絡(luò)語言模型(NeuralNetworkLanguageModel,簡稱NNLM)算法:產(chǎn)生詞向量的相關(guān)模型NNLM模型架構(gòu)word2vec簡介

word2vec模型01連續(xù)詞袋模型(ContinuousBag-Of-Words,簡稱CBOW)02Skip-Gramword2vec簡介

詞袋模型將所有詞語裝進(jìn)一個袋子里,不考慮其詞法和語序的問題例:JanewantstogotoShenzhen.Bob

wantstogotoShanghai.[Jane,wants,to,go,Shenzhen,Bob,Shanghai][1,1,2,1,1,0,0][0,1,2,1,0,1,1]word2vec簡介語料選取語料必須充分:詞量足夠大,盡可能多地包含反映詞語之間關(guān)系的句子語料必須準(zhǔn)確:能夠正確反映該語言的語義和語法關(guān)系word2vec簡介

Skip-gram模型可以跳過某些符號例:“中國足球踢得真是太爛了”提取4個3元詞組為“中國足球踢得”、“足球踢得真是”、“踢得真是太爛”、“真是太爛了”Skip-gram可以組成“中國足球太爛”word2vec簡介

word2vec模型可以將文本內(nèi)容的處理簡化為K維向量空間中的向量運(yùn)算,并且向量空間中的相似度也可以用來表達(dá)文本的語義相似度word2vec可用于聚類、找同義詞、詞性分析等任務(wù)word2vec簡介

詞向量的評價方式:1將詞向量集成到系統(tǒng)中以提高整個系統(tǒng)的準(zhǔn)確性2從語言學(xué)的角度分析詞向量,例如句子相似度分析,語義偏移等詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型詞向量模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):詞向量模型算法流程:①②③對于每個詞,隨機(jī)初始化一個特征向量;設(shè)計神經(jīng)網(wǎng)絡(luò);通過數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以獲得合理的特征向量和神經(jīng)網(wǎng)絡(luò)參數(shù)。詞向量模型

詞向量模型

詞向量模型

詞向量模型

詞向量模型

詞向量模型詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型CBOW和Skip-gram模型

CBOW(ContinuousBag-Of-WordsModel)和Skip-gram模型:CBOW和Skip-gram模型

CBOW計算流程:(1)隨機(jī)生成所有單詞的詞向量矩陣,每一行對應(yīng)一個單詞的向量;(2)從矩陣中提取某一個單詞(中心詞)的周邊單詞詞向量;(3)求周邊單詞詞向量的均值向量;(4)在該均值向量上用logisticregression訓(xùn)練,激活函數(shù)用softmax;(5)期望回歸得到的概率向量能與真實的概率向

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論