Python自然語言處理課件10-1-詞嵌入算法

上傳人：q*** IP屬地：山東上傳時間：2023-10-24 格式：PPTX 頁數(shù)：32 大小：22.68MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

深度學習與自然語言處理Python自然語言處理第十章CONTENT目錄

01詞嵌入算法03循環(huán)神經(jīng)網(wǎng)絡(luò)02訓練詞向量實踐04Seq2Seq模型實戰(zhàn)課前回顧常見機器學習方法無監(jiān)督學習的文本分類文本分類實戰(zhàn)文本聚類實戰(zhàn)深度學習概述深度學習（DeepLearning）方法基于人工神經(jīng)網(wǎng)絡(luò)（ArtificialNeuralNetwork）自動學習合適的特征與多層次的表達與輸出

應(yīng)用于信息抽取、詞性標注、搜索引擎和推薦系統(tǒng)等方面使用詞向量來表示各個級別的元素本章概述

深度學習算法：詞嵌入

循環(huán)神經(jīng)網(wǎng)絡(luò)模型

Seq2Seq實例詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型詞嵌入算法

詞嵌入算法：一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征，進行分布式并行信息處理的算法數(shù)據(jù)模型依靠系統(tǒng)復雜程度和調(diào)節(jié)內(nèi)部大量節(jié)點之間相互連接的關(guān)系，從而達到處理信息的目的其核心為上下文表達和上下文與目標詞匯之間的映射關(guān)系詞向量

詞向量(WordEmbedding)離散表示（One-Hot）：把每個詞表示為一個長向量。這個向量的維度是詞表大小，向量中只有一個維度的值為1，其余維度為0例：蘋果[0，0，0，1，0，0，0，0，0，……]缺點：無法捕獲詞與詞之間的相似性詞向量

分布式表示：將每個詞映射到K維實數(shù)向量，并根據(jù)詞之間的距離，作為判斷它們之間的語義相似度的標準word2vec模型優(yōu)點：詞之間存在相似關(guān)系詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型word2vec簡介

word2vec：用于訓練詞向量的工具神經(jīng)網(wǎng)絡(luò)語言模型（NeuralNetworkLanguageModel，簡稱NNLM）算法：產(chǎn)生詞向量的相關(guān)模型NNLM模型架構(gòu)word2vec簡介

word2vec模型01連續(xù)詞袋模型（ContinuousBag-Of-Words，簡稱CBOW）02Skip-Gramword2vec簡介

詞袋模型將所有詞語裝進一個袋子里，不考慮其詞法和語序的問題例：JanewantstogotoShenzhen.Bob

wantstogotoShanghai.[Jane,wants,to,go,Shenzhen,Bob,Shanghai][1,1,2,1,1,0,0][0,1,2,1,0,1,1]word2vec簡介語料選取語料必須充分：詞量足夠大，盡可能多地包含反映詞語之間關(guān)系的句子語料必須準確：能夠正確反映該語言的語義和語法關(guān)系word2vec簡介

Skip-gram模型可以跳過某些符號例：“中國足球踢得真是太爛了”提取4個3元詞組為“中國足球踢得”、“足球踢得真是”、“踢得真是太爛”、“真是太爛了”Skip-gram可以組成“中國足球太爛”word2vec簡介

word2vec模型可以將文本內(nèi)容的處理簡化為K維向量空間中的向量運算，并且向量空間中的相似度也可以用來表達文本的語義相似度word2vec可用于聚類、找同義詞、詞性分析等任務(wù)word2vec簡介

詞向量的評價方式：1將詞向量集成到系統(tǒng)中以提高整個系統(tǒng)的準確性2從語言學的角度分析詞向量，例如句子相似度分析，語義偏移等詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型詞向量模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)：詞向量模型算法流程：①②③對于每個詞，隨機初始化一個特征向量；設(shè)計神經(jīng)網(wǎng)絡(luò)；通過數(shù)據(jù)訓練神經(jīng)網(wǎng)絡(luò)以獲得合理的特征向量和神經(jīng)網(wǎng)絡(luò)參數(shù)。詞向量模型

詞向量模型

詞向量模型詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型CBOW和Skip-gram模型

CBOW（ContinuousBag-Of-WordsModel）和Skip-gram模型：CBOW和Skip-gram模型

CBOW計算流程：（1）隨機生成所有單詞的詞向量矩陣，每一行對應(yīng)一個單詞的向量；（2）從矩陣中提取某一個單詞（中心詞）的周邊單詞詞向量；（3）求周邊單詞詞向量的均值向量；（4）在該均值向量上用logisticregression訓練，激活函數(shù)用softmax；（5）期望回歸得到的概率向量能與真實的概率向

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Python自然語言處理課件10-1-詞嵌入算法

文檔簡介

溫馨提示

最新文檔

評論

Python自然語言處理 課件10-1-詞嵌入算法

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Python自然語言處理課件10-1-詞嵌入算法