Word2Vec學(xué)習(xí)筆記之基礎(chǔ)篇_第1頁(yè)
Word2Vec學(xué)習(xí)筆記之基礎(chǔ)篇_第2頁(yè)
Word2Vec學(xué)習(xí)筆記之基礎(chǔ)篇_第3頁(yè)
Word2Vec學(xué)習(xí)筆記之基礎(chǔ)篇_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Word2Vec學(xué)習(xí)筆記之基礎(chǔ)篇Word2Vec學(xué)習(xí)筆記之基礎(chǔ)篇概述?然語(yǔ)?處理屬于深度學(xué)習(xí)中的?個(gè)分?,但是相對(duì)其他分?發(fā)展?直?較緩慢,在2013年末,Google發(fā)布的word2vec?具引起了?幫?的熱捧,都認(rèn)為這是深度學(xué)習(xí)在?然語(yǔ)?領(lǐng)域?項(xiàng)了不起的應(yīng)?,word2vec本?并不是特別的難,只是簡(jiǎn)單三層神經(jīng)?絡(luò),但是在某種程度上說(shuō)他的應(yīng)?是?分有前景的。Word2Vec(wordtovector)是?種把詞表征轉(zhuǎn)化成實(shí)數(shù)值向量來(lái)區(qū)分其之間的差別的?種深度學(xué)習(xí)算法,對(duì)于訓(xùn)練好的模型,我們可以刻畫(huà)出任意兩個(gè)詞語(yǔ)之間的相似度,?向量距離的形式。學(xué)習(xí)材料:深度學(xué)習(xí)word2vec筆記之基礎(chǔ)篇[NLP]秒懂詞向量Word2vec的本質(zhì)DeepLearning實(shí)戰(zhàn)之word2vec學(xué)習(xí)Word2Vec之前,你需要知道這些背景知識(shí)詞向量在?然語(yǔ)?相關(guān)的任務(wù)中,要將?然語(yǔ)?交給計(jì)算機(jī)處理,計(jì)算機(jī)可不認(rèn)識(shí)?類(lèi)的語(yǔ)?,所以要先將?然語(yǔ)?轉(zhuǎn)換成計(jì)算機(jī)能懂的東西,?要在?定程度上區(qū)分出不同詞語(yǔ)的區(qū)別,?們就想到了?向量來(lái)表?不同的詞語(yǔ)one-hotrepresentation向量表?法?們?先想到了?種?較簡(jiǎn)單的向量表??法是one-hotrepresentation,就是??個(gè)很長(zhǎng)的向量來(lái)表??個(gè)詞,向量的長(zhǎng)度為詞典的??或者說(shuō)不同詞語(yǔ)的數(shù)量,?如說(shuō)現(xiàn)在有4個(gè)詞語(yǔ)蘋(píng)果蘋(píng)果:[1,0,0,0]?蕉:[0,1,0,0]?果:[0,0,1,0],?蕉,?果,卡車(chē),?one-hotrepresentation表?法可以這樣表?:卡車(chē):[0,0,0,1]這種表??式?常的簡(jiǎn)潔,也就是給每個(gè)詞分配?個(gè)唯?的ID,如果要編程的話(huà),?Hash表給每個(gè)詞分配?個(gè)編號(hào)就可以了,這種?式已經(jīng)能在NLP的絕?多數(shù)問(wèn)題上完成需要的任務(wù)了。但是這種詞表??式有兩個(gè)缺點(diǎn):1.容易受維數(shù)災(zāi)難的困擾,也就是當(dāng)向量的長(zhǎng)度過(guò)長(zhǎng),會(huì)導(dǎo)致計(jì)算變得困難(具體本?也不熟悉)2.不能很好的刻畫(huà)詞與詞之間的相似性(詞匯鴻溝):任意兩個(gè)詞之間都是孤?的,光從向量上看不出兩個(gè)詞之間有關(guān)系,就像上?的例?,我們并不能看出蘋(píng)果和?蕉,以及?果和卡車(chē)之間有啥關(guān)系所以在這種表??法的基礎(chǔ)上,?們有想到了另?種表?法,也是Word2Vec中運(yùn)?的向量表?法DistributedRepresentationDistributedRepresentation向量表?法這種向量表??法也很簡(jiǎn)單,就是直接??個(gè)普通的向量表??個(gè)詞,這種向量?般長(zhǎng)這樣[0.795,-0.568,0.156,0.455,...],這種向量表?法的向量維度不是由詞典??決定的,?般由我們??選定,?般50維和100維?較常見(jiàn),這樣的話(huà)維度不會(huì)太?,所以我們學(xué)習(xí)的Word2Vec本質(zhì)上就是將one-hotrepresentation向量表?轉(zhuǎn)化成distributedrepresentation向量表?法.經(jīng)過(guò)訓(xùn)練的詞語(yǔ)被轉(zhuǎn)化成這種形式后,?般其向量具有空間上的意義,也就是將這些向量放在?起形成?個(gè)詞向量空間,?每個(gè)向量都其中的?個(gè)點(diǎn),這個(gè)空間是多維的,所以想象起來(lái)可能?較困難,但是我們其實(shí)不關(guān)?他們所在的具體位置,只要知道如何計(jì)算其中兩個(gè)向量的"距離"就?了,因?yàn)樗^兩個(gè)詞的"距離",表?的就是這兩個(gè)詞之間的語(yǔ)法,語(yǔ)義之間的相似性。從這?就能看出來(lái)Word2Vec的最終?的就是通過(guò)將詞轉(zhuǎn)換成向量,在通過(guò)向量的"距離"來(lái)觀察兩個(gè)詞之間的相似度那么接下來(lái)我們看看要如何去做,這?暫時(shí)不會(huì)涉及到具體的算法知識(shí),只是?概的過(guò)程描述相似詞假說(shuō)分布式假說(shuō)?個(gè)詞由周?chē)~來(lái)推斷,相似的詞會(huì)出現(xiàn)在相似的語(yǔ)境中,分布模型相似詞在相似的上下?中,例如今天天空中有很多星星,今天天空中有太陽(yáng),這兩個(gè)句?中的太陽(yáng)和星星就具有相似的上下?,具有縱向相從這兩個(gè)似乎很有道理的假說(shuō)中就能推出我們要在意的兩個(gè)語(yǔ)?模型-CBOW和Skip-Gram模型,他們都是Word2Vec?具中?到的模Word2Vec是代碼項(xiàng)?的名字,只是計(jì)算wordembedding的?個(gè)?具,是CBOW和Skip-Gram這兩個(gè)模型開(kāi)源出來(lái)的?具。連續(xù)實(shí)值詞表達(dá)也叫詞嵌?wordembedding。過(guò)程概述再??個(gè)具體的例?來(lái)說(shuō)明:如果在?個(gè)語(yǔ)料庫(kù)中,吳彥祖帥到?jīng)]朋友這句話(huà)經(jīng)常出現(xiàn),那么最終的訓(xùn)練結(jié)果中,[吳彥祖]這個(gè)詞語(yǔ)會(huì)和[帥](méi),[沒(méi)朋友],這兩個(gè)詞的相似度?常?如果在同?個(gè)語(yǔ)料庫(kù)中,?環(huán)帥到?jīng)]朋友這句話(huà)也經(jīng)常出現(xiàn),那么在最終的訓(xùn)練結(jié)果中[?環(huán)]這個(gè)詞語(yǔ)會(huì)和[吳彥祖]的相似度也?常?.我們可以推斷,?環(huán)和吳彥祖?樣帥CBOW模型CBOW模型是利?詞的上下?來(lái)預(yù)測(cè)當(dāng)前的單詞,?如輸?[帥](méi),[沒(méi)朋友]會(huì)輸出?個(gè)[?環(huán)](或者吳彥祖)Skip-Gram模型Skip-Gram模型是利?詞來(lái)預(yù)測(cè)上下?,?如輸?[吳彥祖],會(huì)輸出[?環(huán)],[帥](méi),[沒(méi)朋友]在這?不做模型的具體解析,只是額外介紹?下語(yǔ)?模型的?概概念,以更好的理解?然語(yǔ)?處理的基礎(chǔ)問(wèn)題統(tǒng)計(jì)語(yǔ)?模型基本概念語(yǔ)?模型其實(shí)就是看?句話(huà)是不是正常?說(shuō)出來(lái)的話(huà).?如說(shuō)我們要計(jì)算?句話(huà)[吳彥祖帥到?jīng)]朋友]是?然語(yǔ)?的概率,我們先要分詞(將?個(gè)句?分成?個(gè)個(gè)詞語(yǔ),英?靠空格分詞,中?就?較?煩了),這句話(huà)就變成了[吳彥祖,帥,沒(méi)朋友](這?忽略掉到字?較好講解)?句話(huà)是?然語(yǔ)?的概率從數(shù)學(xué)上我們給出的公式是,代表第i個(gè)詞語(yǔ)?上?的例?來(lái)說(shuō)<svgxmlns:xlink="/1999/xlink"width="8.851ex"height="2.66ex"viewBox="-38.5-83238111145.2"role="img"focusable="false"style="vertical-align:-0.728ex;margin-left:-0.089ex;"class="in-text-selection"><gstroke="currentColor"fill="currentColor"stroke-width="0"transform="matrix(100-100)"><gtransform="translate(893,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">吳</text></g><gtransform="translate(1722,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">彥</text></g><gtransform="translate(2552,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">祖</text></g></g></svg>表?"吳彥祖"這個(gè)詞在語(yǔ)料庫(kù)中出現(xiàn)的概率;<svgxmlns:xlink="/1999/xlink"width="11.426ex"height="2.66ex"viewBox="-38.5-8324919.41145.2"role="img"focusable="false"style="vertical-align:-0.728ex;margin-left:-0.089ex;"class="in-text-selection"><gstroke="currentColor"fill="currentColor"stroke-width="0"transform="matrix(100-100)"><gtransform="translate(893,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">帥</text></g><gtransform="translate(2001,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">吳</text></g><gtransform="translate(2831,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">彥</text></g><gtransform="translate(3661,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">祖</text></g></g></svg>表?"帥"這個(gè)詞在"吳彥祖"后?出現(xiàn)的概率<svgxmlns:xlink="/1999/xlink"width="18.243ex"height="2.66ex"viewBox="-38.5-8327854.61145.2"role="img"focusable="false"style="vertical-align:-0.728ex;margin-left:-0.089ex;"class="in-text-selection"><gstroke="currentColor"fill="currentColor"stroke-width="0"transform="matrix(100-100)"><gtransform="translate(893,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">沒(méi)</text></g><gtransform="translate(1722,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">朋</text></g><gtransform="translate(2552,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">友</text></g><gtransform="translate(3661,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">吳</text></g><gtransform="translate(4491,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">彥</text></g><gtransform="translate(5321,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">祖</text></g><gtransform="translate(6596,0)"><textfont-family="STIXGeneral,'ArialUnicodeMS',serif"stroke="none"transform="scale(51.874)matrix(100-100)">帥</text></g></g></svg>表?"沒(méi)朋友"出現(xiàn)在"吳彥祖帥"后?的概率最后把這?個(gè)概率乘起來(lái)就是"吳彥祖帥到?jīng)]朋友"這句話(huà)出現(xiàn)的概率了.這種?法簡(jiǎn)單直接,但是太過(guò)暴?了,計(jì)算?句話(huà)要計(jì)算這么多概率,三個(gè)詞的句?要掃描次3語(yǔ)料庫(kù),計(jì)算三個(gè)?句出現(xiàn)的概率,如果語(yǔ)料庫(kù)巨?且句?的詞語(yǔ)數(shù)量較多的話(huà),運(yùn)算時(shí)間會(huì)出奇的慢,根本沒(méi)有使?價(jià)值.所以為了偷懶,我們可以?更簡(jiǎn)單的計(jì)算?式-N-gram模型N-gram模型N-gram模型的核?就在這個(gè)N上,N-gram只管這個(gè)詞前?的n-1個(gè)詞,加上??總共n個(gè)詞,計(jì)算概率時(shí)指考慮這n個(gè)詞來(lái)計(jì)算,即其中,如果是空的話(huà),就是它??p(w),另外如“沒(méi)朋友”的Context就是“吳彥祖”、“帥”,其余的對(duì)號(hào)?座。如果n取2則"吳彥祖帥到?jīng)]朋友"就只考慮"帥"和"沒(méi)朋友"之間的出現(xiàn)概率了這?如果n取得?較?的話(huà),就?較省事了,當(dāng)然也要看到n取得太?,會(huì)特別影響效果

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論