版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
深度學(xué)習(xí)與自然語言處理Python自然語言處理第十章CONTENT目錄
01詞嵌入算法03循環(huán)神經(jīng)網(wǎng)絡(luò)02訓(xùn)練詞向量實踐04Seq2Seq模型實戰(zhàn)課前回顧常見機(jī)器學(xué)習(xí)方法無監(jiān)督學(xué)習(xí)的文本分類文本分類實戰(zhàn)文本聚類實戰(zhàn)深度學(xué)習(xí)概述深度學(xué)習(xí)(DeepLearning)方法基于人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork)自動學(xué)習(xí)合適的特征與多層次的表達(dá)與輸出
應(yīng)用于信息抽取、詞性標(biāo)注、搜索引擎和推薦系統(tǒng)等方面使用詞向量來表示各個級別的元素本章概述
深度學(xué)習(xí)算法:詞嵌入
循環(huán)神經(jīng)網(wǎng)絡(luò)模型
Seq2Seq實例詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型詞嵌入算法
詞嵌入算法:一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)據(jù)模型依靠系統(tǒng)復(fù)雜程度和調(diào)節(jié)內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達(dá)到處理信息的目的其核心為上下文表達(dá)和上下文與目標(biāo)詞匯之間的映射關(guān)系詞向量
詞向量(WordEmbedding)離散表示(One-Hot):把每個詞表示為一個長向量。這個向量的維度是詞表大小,向量中只有一個維度的值為1,其余維度為0例:蘋果[0,0,0,1,0,0,0,0,0,……]缺點:無法捕獲詞與詞之間的相似性詞向量
分布式表示:將每個詞映射到K維實數(shù)向量,并根據(jù)詞之間的距離,作為判斷它們之間的語義相似度的標(biāo)準(zhǔn)word2vec模型優(yōu)點:詞之間存在相似關(guān)系詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型word2vec簡介
word2vec:用于訓(xùn)練詞向量的工具神經(jīng)網(wǎng)絡(luò)語言模型(NeuralNetworkLanguageModel,簡稱NNLM)算法:產(chǎn)生詞向量的相關(guān)模型NNLM模型架構(gòu)word2vec簡介
word2vec模型01連續(xù)詞袋模型(ContinuousBag-Of-Words,簡稱CBOW)02Skip-Gramword2vec簡介
詞袋模型將所有詞語裝進(jìn)一個袋子里,不考慮其詞法和語序的問題例:JanewantstogotoShenzhen.Bob
wantstogotoShanghai.[Jane,wants,to,go,Shenzhen,Bob,Shanghai][1,1,2,1,1,0,0][0,1,2,1,0,1,1]word2vec簡介語料選取語料必須充分:詞量足夠大,盡可能多地包含反映詞語之間關(guān)系的句子語料必須準(zhǔn)確:能夠正確反映該語言的語義和語法關(guān)系word2vec簡介
Skip-gram模型可以跳過某些符號例:“中國足球踢得真是太爛了”提取4個3元詞組為“中國足球踢得”、“足球踢得真是”、“踢得真是太爛”、“真是太爛了”Skip-gram可以組成“中國足球太爛”word2vec簡介
word2vec模型可以將文本內(nèi)容的處理簡化為K維向量空間中的向量運(yùn)算,并且向量空間中的相似度也可以用來表達(dá)文本的語義相似度word2vec可用于聚類、找同義詞、詞性分析等任務(wù)word2vec簡介
詞向量的評價方式:1將詞向量集成到系統(tǒng)中以提高整個系統(tǒng)的準(zhǔn)確性2從語言學(xué)的角度分析詞向量,例如句子相似度分析,語義偏移等詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型詞向量模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):詞向量模型算法流程:①②③對于每個詞,隨機(jī)初始化一個特征向量;設(shè)計神經(jīng)網(wǎng)絡(luò);通過數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以獲得合理的特征向量和神經(jīng)網(wǎng)絡(luò)參數(shù)。詞向量模型
詞向量模型
詞向量模型
詞向量模型
詞向量模型
詞向量模型詞嵌入算法01詞向量Word2vec簡介詞向量模型CBOW和Skip-gram模型CBOW和Skip-gram模型
CBOW(ContinuousBag-Of-WordsModel)和Skip-gram模型:CBOW和Skip-gram模型
CBOW計算流程:(1)隨機(jī)生成所有單詞的詞向量矩陣,每一行對應(yīng)一個單詞的向量;(2)從矩陣中提取某一個單詞(中心詞)的周邊單詞詞向量;(3)求周邊單詞詞向量的均值向量;(4)在該均值向量上用logisticregression訓(xùn)練,激活函數(shù)用softmax;(5)期望回歸得到的概率向量能與真實的概率向
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 元宵節(jié)日記匯編9篇
- 物流管理專業(yè)求職信
- 銷售工作心得體會范文-心得體會范文
- 人性的弱點讀后感版
- 范文端午節(jié)活動方案合集6篇
- 我的青春我的夢演講稿3篇
- DB12∕T 1055-2021 機(jī)動車排放達(dá)標(biāo)維修服務(wù)規(guī)范
- 個人對老師的感言(160句)
- 脂代謝課件教學(xué)課件
- 骨髓檢查課件教學(xué)課件
- 銀行消保宣傳培訓(xùn)課件
- 惡性心律失常識別與處理
- 消防安全記者采訪手冊
- 高效執(zhí)行力通用課件
- 《28.2.2 利用仰俯角解直角三角形》教案、導(dǎo)學(xué)案
- 財務(wù)稅務(wù)法務(wù)合規(guī)培訓(xùn)
- 檢驗科生殖出科小結(jié)
- 《合同轉(zhuǎn)讓和分包》課件
- 中國美術(shù)簡史
- DB11T 2189-2023防汛隱患排查治理規(guī)范 城鎮(zhèn)內(nèi)澇
- 腰大肌膿腫的護(hù)理查房
評論
0/150
提交評論