版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、深度學(xué)習(xí)之word2vec學(xué)習(xí)、分享與交流報告人:黃宇鵬目錄 基本概念 模型與方法 實戰(zhàn)與應(yīng)用詞向量 自然語言中的詞語在機器學(xué)習(xí)中表示符號 one-hot representation例如: “話筒”表示為 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 . “麥克”表示為 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 . 實現(xiàn)時就可以用0,1,2,3,.來表示詞語進(jìn)行計算,這樣“話筒”就為3,“麥克”為8. 存在兩個問題 維度比較大,尤其是用于 deep learning 的一些算法時 詞匯鴻溝:任意兩個詞之間都是孤立的,不能體現(xiàn)詞和詞之間的關(guān)系詞向量 di
2、stributional representation 詞表示為: 0.792, 0.177, 0.107, 0.109, 0.542, .,常見維度50或者100 解決“詞匯鴻溝”問題 可以通過計算向量之間的距離(歐式距離、余弦距離等)來體現(xiàn)詞與詞的相似性 如何訓(xùn)練這樣的詞向量 沒有直接的模型可訓(xùn)練得到 可通過訓(xùn)練語言模型的同時,得到詞向量語言模型 判斷一句話是不是正常人說出來的,用數(shù)學(xué)符號描述為 給定一個字符串w1,w2,.,wt,計算它是自然語言的概率 ,一個很簡單的推論是 例如,有個句子大家,喜歡,吃,蘋果 p(大家,喜歡,吃,蘋果)=p(大家)p(喜歡|大家)p(吃|大家,喜歡)p(
3、蘋果|大家,喜歡,吃) 簡單表示為 計算 問題),.,(21twwwp),.,|(.),|()|()(),.,(12121312121tttwwwwpwwwpwwpwpwwwptiiitcontextwpwwwpsp121)|(),.,()()|(iicontextwp語言模型 現(xiàn)有模型 n-gram模型 n-pos模型 . bengio的nnlm c&w 的 senna m&h 的 hlbl mikolov 的 rnnlm huang 的語義強化 .word2vec原理 兩種模型,兩種方法模型模型cbowskip-gram方法hierarchical softmaxnegat
4、ive samplinghierarchical softmaxnegative samplingcbow模型+hierarchical softmax方法 cbow模型 input:輸入層 projection:投影層 output:輸出層 w(t):當(dāng)前詞語(向量) w(t-2),w(t-1),w(t+1),w(t+2):當(dāng)前詞語的上下文 sum:上下文的累加和cbow模型+hierarchical softmax方法(續(xù))cbow模型+hierarchical softmax方法(續(xù))為什么建哈夫曼樹?非葉子結(jié)點為lr分類器葉子結(jié)點對應(yīng)詞典中的一個詞目標(biāo):)|(iicontextwpcb
5、ow模型+hierarchical softmax方法(續(xù)) 句子:我,喜歡,觀看,巴西,足球,世界杯 w=足球cbow模型+hierarchical softmax方法(續(xù)) 正類概率: 負(fù)類概率: 足球 葉子節(jié)點經(jīng)過4次二分類,每次分類結(jié)果對應(yīng)的概率為 由context(足球)預(yù)測足球出現(xiàn)的概率cbow模型+hierarchical softmax方法(續(xù))wljwjwwjxdpwcontextwp21),|()(|( 對于詞典中的每個詞w有, 結(jié)點個數(shù) 其中, 或者表示為 對于由s個句子組成的語料庫c有 取對數(shù)似然函數(shù). 1),(1; 0),(),|(111wjwjtxwjwjtxwjw
6、wjdxdxxdpwjwjdwjtwdwjtwwjwwjxxxdp)(1 )(),|(1111csswljwjwwjcsswwxdpwcontextwpxl21),|()(|(),()(1log()(log)1(),|(log),(log21121csswljwjtwwjwjtwwjcsswljwjwwjwwxdxdxdpxlwl參數(shù)1參數(shù)2cbow模型+hierarchical softmax方法(續(xù)))(1log()(log)1 (),(11wjtwwjwjtwwjxdxdjwfwj 1 梯度下降法進(jìn)行求解 令 f(w,j)關(guān)于 和 的梯度分別為 更新公式wxwwjtwwjwjxxdjwf
7、)(1 ),(11wjwjtwwjwxdxjwf11)(1 ),(wjwjwjjwf111),(:wljwwcontextwxjwfwvwv2)(,),()(: )(word2vec實戰(zhàn)(一) 訓(xùn)練數(shù)據(jù)集:經(jīng)過分詞后的新聞數(shù)據(jù),大小184mb 查看中國,釣魚島,旅游,蘋果幾個詞語的相似詞語如下所示word2vec實戰(zhàn)(一) 向量加減法 中國+北京-日本,中國+北京-法國,家庭+孩子-學(xué)校word2vec應(yīng)用(一) 機器翻譯 語言詞語的關(guān)系集合被表征為向量集合 向量空間內(nèi),不同語言享有許多共性 實現(xiàn)一個向量空間到另一個向量空間的映射和轉(zhuǎn)換 圖為英語和西班語的五個詞在向量空間中的位置(已經(jīng)過降維)
8、 對英語和西班語之間的翻譯準(zhǔn)確率高達(dá)90%word2vec應(yīng)用(三) 給廣告主推薦用戶 t媒體網(wǎng)站用戶瀏覽網(wǎng)頁的記錄 pageh是匹克體育用品公司在t上的官網(wǎng) page2,page3,page5和pageh是比較相似的頁面 可給匹克體育用品公司推薦經(jīng)常瀏覽page2,3,5這個幾個頁面的用戶進(jìn)行廣告投放word2vec應(yīng)用(三) 相似的頁面計算過程word2vec應(yīng)用(三)續(xù) 對ctr預(yù)估模型的幫助 新廣告上線存在冷啟動問題 通過比較相似的廣告的點擊率來預(yù)估這個廣告的點擊率 由上個例子可得到每個頁面的向量,然后通過kmeans進(jìn)行聚類,得到比較相似頁面的簇? 向頁面向量添加其它的特征,例如廣告
9、主所屬的行業(yè)和地域等 假設(shè)頁面p1的向量是(0.3,-0.5,0.1),加入行業(yè)和地域信息后為(0.3,-0.5,0.1,1,0),1和0分別表示行業(yè)和地域的特征值 這樣得到的聚類效果相對更好參考文獻(xiàn)1 http:/ 深度學(xué)習(xí)word2vec筆記之算法篇 2 http:/ word2vec 中的數(shù)學(xué)原理詳解(四)基于 hierarchical softmax 的模型 3 http:/ 楊超在知乎上的問答word2vec的一些理解4 http:/ hisen博客的博文5 http:/ 深度學(xué)習(xí)word2vec筆記之應(yīng)用篇 6 http:/ deep learning實戰(zhàn)之word2vec,網(wǎng)易有
10、道的pdf7 http:/ word2vec源碼解析之word2vec.c 8 hierarchical probabilistic neural network language model. frederic morin and yoshua bengio.9 distributed representations of words and phrases and their compositionality t. mikolov, i. sutskever, k. chen, g. corrado, and j. dean.10 a neural probabilistic language model y. bengio, r. ducharme, p. vincent.11 linguistic regularities in continuous space word representations. tomas mikolov,wen-tau yih,geoffrey zweig.12 effi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東省汕尾市(2024年-2025年小學(xué)五年級語文)人教版綜合練習(xí)((上下)學(xué)期)試卷及答案
- 2023年大容量注射劑資金申請報告
- 2023年高純氧化鈮、氧化鉭資金籌措計劃書
- 五年級數(shù)學(xué)(小數(shù)除法)計算題專項練習(xí)及答案
- 高二上冊政治總復(fù)習(xí)教案
- 豬場分娩舍培訓(xùn)總結(jié)
- 《電氣控制系統(tǒng)設(shè)計與裝調(diào)》教案 任務(wù)一:M7140型磨床控制線路基本構(gòu)造及工作原理
- 山東省濟寧市金鄉(xiāng)縣多校2024-2025學(xué)年二年級上學(xué)期期中語文試卷
- 陜西省神木市2024~2025學(xué)年七年級上學(xué)期期中質(zhì)量檢測調(diào)生物學(xué)試題(含答案)
- 湖南省邵陽市邵東市創(chuàng)新高級中學(xué)有限公司2024-2025學(xué)年高一上學(xué)期期中考試地理試題(含答案)
- 乳膠漆墻面施工方案范本
- 浙江省嘉興市2023年八年級上學(xué)期期中數(shù)學(xué)試卷(附答案)
- Scratch在小學(xué)數(shù)學(xué)中的應(yīng)用-以《長方形的周長》為例
- 化工企業(yè)停工方案范本
- 網(wǎng)絡(luò)傳播法規(guī)(自考14339)復(fù)習(xí)必備題庫(含答案)
- 民法典合同編解讀之合伙合同
- 高中英語學(xué)習(xí)情況問卷調(diào)查表及調(diào)查報告
- 求雨后姐弟小故事
- GRR計算公式表格
- 梅毒診斷標(biāo)準(zhǔn)
- 2023年catti三級筆譯綜合能力考試試題及答案解析
評論
0/150
提交評論