單詞和短語的分布式表示和他們的組合性_第1頁
單詞和短語的分布式表示和他們的組合性_第2頁
單詞和短語的分布式表示和他們的組合性_第3頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、單詞和短語的分布式表示和他們的組合性文摘最近推出的 Skip-gram 模型是一種有效的方法來學(xué)習(xí)高品質(zhì)的分布式向量表 示,它捕捉了大量 num-ber 精確的語法和語義詞的關(guān)系和方法。 在本文中我們提 出幾個擴展 , 提高質(zhì)量的向量和訓(xùn)練速度。 通過頻繁的二次抽樣,使我們的學(xué)習(xí) 得到顯著加速同時也學(xué)更多的定期字表示。我們還描述了一個簡單的 alterna-tive 層次, softmax 稱為負(fù)采樣。詞表示有著特定的局限性, 他們無法代表習(xí)慣用語。 例如, “加拿大”和“空 氣”不能容易地組合以獲得“加拿大航空公司, 通過這個例子中, 我們提出了用 于查找文本短語的簡單方法, 這個便使得學(xué)習(xí)

2、良好的向量表示和為數(shù)百萬短語成 為可能。1 引言在向量空間中分布表示的單詞可以幫助學(xué)習(xí)算法更好的實現(xiàn)在自然語言處理 任務(wù)分組中相似的單詞。最早的一個使用字表示的歷史可以追溯到 1986 年,源 自于 Rumelhart,Hinton 和 Williams 13 。這個想法已經(jīng)被應(yīng)用到統(tǒng)計語言獲 得相當(dāng)大的成功。后續(xù)工作包括應(yīng)用自動語音識別、機器翻譯 14 7 和廣泛的 自然語言處理的任務(wù) 2, 20, 15, 3, 18, 19, 9。最近,Mikolov 等人引入了一種叫 Skip-gram 模型, 是一種有效的從大量的非結(jié) 構(gòu)化的文本數(shù)據(jù)中學(xué)習(xí)高質(zhì)量的向量表示單詞的方法。 不同于大多數(shù)以前

3、使用的 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)單詞載體,在 Skip-gram 模型中(見圖 1)并不涉及稠密矩陣 乘法。這使得訓(xùn)練效率極高: 一個優(yōu)化的單價可以實現(xiàn)每天訓(xùn)練超過 1000 億人。這個詞表示計算使用神經(jīng)網(wǎng)絡(luò)非常有趣 , ,因為學(xué)到的向量進(jìn)行明確編碼和遵 循許多語言規(guī)律和模式。有點令人驚訝的是 , 許多這些模式可以表示成線性的翻 譯。舉例來說 , 一個向量計算的結(jié)果 VEC(“馬德里”) - VEC (“西班牙”) + VEC(“法國”)是不是任何其他文字更貼近 VEC(“巴黎”)。圖 1:Skip-gram 模型架構(gòu)。培訓(xùn)目標(biāo)是學(xué)習(xí)單詞向量表示擅長預(yù)測附近的單 詞。在本文中,我們提出 skip-gr

4、am 模型的幾個擴展。 我們表明, 二次抽樣期間可 以顯著加速訓(xùn)練頻繁出現(xiàn)的詞匯(約 2 倍- 10 倍),以及提高了頻率較低單詞表述的準(zhǔn)確性。此外,我們提出了一個簡單的噪聲對比估算的變量(NCE)4skip-gram 模型導(dǎo)致更快的培訓(xùn)和頻繁出現(xiàn)的詞匯更好的向量表示, SOFTMAX 分層相比于這個更復(fù)雜 8 。受限于詞表示他們無法使慣用短語成分個別單詞。例如 , “波士頓環(huán)球報”是 一個報紙 , 所以它不是一個自然的組合的含義“波士頓”和“全球”。因此, 使用向量 repre-sent 整個短語比 Skip-gram 模型表達(dá)得多。其他技術(shù) , 主要在的句 子通過組合這個詞向量 , 如遞歸

5、來表示句子 2 的含義15, 也將受益于使用短語 向量代替這個詞向量。從文字?jǐn)U展為基礎(chǔ), 以基于短語的模型比較簡單。 首先我們確定一個大的采用 數(shù)據(jù)驅(qū)動的方法短語號碼, 然后我們對待短語作為單獨的標(biāo)記。 在培訓(xùn)期間。 為 了評估這句話向量質(zhì)量, 我們開發(fā)了一個用于類比同時包含單詞和短語推理任務(wù) 的測試器。從我們的測試中看到一個典型的比喻是對“蒙特利爾”: “蒙特利爾 加拿大人” : “多倫多”:“多倫多楓葉”。如果最近表示它會被認(rèn)為是已經(jīng)正 確回答,以 VEC(“蒙特利爾加拿大人”) - VEC (“蒙特利爾”) +VEC(“多 倫多”) VEC(“多倫多楓葉”)。最后,我們描述了跳過 -gr

6、am 模型的另一個有趣的特性。我們發(fā)現(xiàn),簡單向量 加法往往能產(chǎn)生有意義的結(jié)果。例如, VEC(“俄羅斯”) + VEC(“河”)是接 近 VEC(“伏爾加河”),和 VEC(“德國”) + VEC(“資本”)接近 VEC(“柏 林”)。 這個組合性暗示的語言理解非常顯而易見可以通過獲得使用上的字向 量表示基本的數(shù)學(xué)運算。2 Skip-gram 模型skip-gram 模型的訓(xùn)練目標(biāo)用字表示是獲取在一個句子或文檔周圍的的用詞。 更正式地說,由于序列訓(xùn)練單詞 w1, W2,W3,。 。 。 ,WT, skip-gram 模型 的目標(biāo)是最大化的平均數(shù)概率。1TTlog p(wt j|wt)T t 1

7、 c j c,j 0其中 c 是訓(xùn)練上下文 (其可以是中心單詞重量的函數(shù)) 的大小。在訓(xùn)練時間為 代價的前提下,更多的訓(xùn)練示例并因此較大 C 結(jié)果可導(dǎo)致更高的精度。基本 Skip-gram 公式定義了 p(wt + j | wt)將要使用 softmax 函數(shù) :p(wo|wt)2)exp(v'wo vwt ) Ww 1 exp(v 'w vwt )其中,vw和 v'w 是“輸入”和“輸出”向量表示, W是數(shù)在詞匯。這種提取的 方法是不切實際的,因為計算成本和 ? logP (WO| WI)是成正比的,這往往是 ( 105-107 項)。2.1 Softmax 分層SO

8、FTMA的X 計算效率近似于分層 SOFTMA。X神經(jīng)網(wǎng)絡(luò)語言模型最早是由莫蘭和 Bengio12 提出。該主要優(yōu)點是代替在神經(jīng)網(wǎng)絡(luò)中評估 W的輸出節(jié)點, 以獲得概 率分布,則需要評估僅約 LOG2(W)的節(jié)點。分層 SOFTMA使X用輸出層的二進(jìn)制樹表示用 W字作為其葉子和,對于每個節(jié)點, 明確地表示它的子節(jié)點的相對概率。 這些定義分配概率的話便可以隨機游走。更精確地說,每一個字,我們也可以從樹的根的適當(dāng)路徑到達(dá)。設(shè)n(重量,j )的是從根為 w 的路徑上的第 j 個節(jié)點,并設(shè) L(w)的是該路徑的長度,因此 n(重量, 1)=根和 n(W,L(W)=瓦特此外, 對于任何內(nèi)部節(jié)點 n,讓通道

9、(n) 是 n 的任意的固定子和如果 x 為真,否則返回 -1 讓 X 為 1。然后分層 SOFTMAX 限定 P(WO| WI)如下:L(w) 1p(w|wI)( n(w,j 1) ch(n(w, j) 'n(w,j) w,I)j 1( 3)在 (x)= 1 /(1 + exp( -x) 。它可以證實 這意味著成本計算 logp( 我們| wI) 和? logp( 我們| wI)L 成正比 (我們), 平均值不大于 W。也不像的 標(biāo)準(zhǔn) softmax 方法和 Skip-gram 分配兩個表示 vw 每個單詞和 vw w, 層次 softmax 配方對每個詞都有一個表示 vw 和一個表

10、示 vn為每個內(nèi)部節(jié)點 n 的二 叉樹。由于分級 SOFTMA使X用的樹結(jié)構(gòu)對性能有很大影響,所以 Mnih 和辛頓探索了 許多方法用于構(gòu)造的樹結(jié)構(gòu)并同時在訓(xùn)練時間的效果和所產(chǎn)生的模型精度的方 法 10 。在我們的工作中, 我們使用二進(jìn)制哈夫曼樹, 因為它能夠分配短代碼而 導(dǎo)致快速訓(xùn)練。 在此之前,利用分組的話可以通過頻率工作以及用于基于神經(jīng)網(wǎng) 絡(luò)的語言模型把一個非常簡單的加速技術(shù)放到到一起 5,8 。2.2 負(fù)抽樣分層 SOFTMA的X 一種替代是噪聲對比估計模型( NCE),這是由古特曼和許韋 里寧 4 引入并通過 Mnih 和德施加到語言模型 11.NCE 假定,一個好的模型應(yīng) 該能夠從

11、區(qū)分?jǐn)?shù)據(jù)邏輯回歸方式的噪音。這有點像由 Collobert 和韋斯頓 2 使 用的損耗誰由排名高于噪聲的數(shù)據(jù)訓(xùn)練的模型。指標(biāo)可以顯示 softmax 的對數(shù)概率最大化 ,Skip-gram 模型只關(guān)心學(xué)習(xí)質(zhì)量的 向量表示 , 所以只要我們利用定義消極抽樣 (否定) 的目標(biāo)可以簡化指標(biāo)向量表示 保留它們的質(zhì)量klog (v'wo vwi )wi pn ( w) log ( v'wi vwi )i 1( 4)利用主成分分析法 (PCA)和資本向量投影的國家圖 2: 二維主要分析的投影 Skip-gram 向量的國家及其首都城市。下圖說明了 模型的能力,自動組織觀念和學(xué)習(xí)含蓄它們之間

12、的關(guān)系, 因為在訓(xùn)練期間, 我們 沒有提供關(guān)于任何受監(jiān)管的信息一個省會城市的意思。用于替換每個日志 Skip-gram P( 我們 | wI) 項目標(biāo)。因此 , 任務(wù)是區(qū)分目標(biāo)詞 我們從噪聲分布吸引 Pn(w)使用邏輯回歸的 ,哪里有 k 負(fù)樣本為每個數(shù)據(jù)樣本。 我們的實驗表明 ,k 值范圍在 5 - 20 是有用的為小型訓(xùn)練數(shù)據(jù)集 , 而對于大型數(shù) 據(jù)集可以小至 2 - 5 k 。負(fù)采樣和出版社之間的主要區(qū)別是 , 一旦需要這樣的人 樣本和噪聲的數(shù)值概率分布 , 而負(fù)采樣只使用樣品。雖然出版社約日志將 softmax 概率最大化 , 但是這個屬性對應(yīng)用程序并不重要NCE和 NEG把負(fù)的噪聲分

13、布 Pn(w) 作為一個自由參數(shù)。 我們調(diào)查了一些對的 Pn 選擇(重量),并發(fā)現(xiàn)該單字組分布 U(w)的上升到 3 /4RD功率(即, U(W) 3/4 / Z )顯著優(yōu)于單字組和均勻分布,為 NCE和 NEG上的每一項任務(wù),我們嘗 試包括語言模型(這里不報道)。2.3 頻繁的二次抽樣在非常大的語料庫中,最頻繁的字可以很容易地出現(xiàn)數(shù)億倍(例如,“在”, “該”,和“一個”)。這樣的話通常提供比生僻字信息的價值少。 對于這樣 的情況, ,Skip-gram 模型可以觀察“法國”、“巴黎” , 它從觀察頻繁的出現(xiàn) “法國”、“的”, 幾乎每一個詞經(jīng)常在一個句子都存與“的”。 這種想法也可 應(yīng)用于

14、在相反的方向,頻繁的二次抽樣可以改變幾百萬的實訓(xùn)例子。為了應(yīng)對罕見的頻繁的詞與詞之間的不平衡, 我們用一個簡單的二次抽樣的方 法,就是用每個字被丟棄的概率由公式來計算5)P(wi) 1 f (twi)表 1: 各種 Skip-gram 300 - 模型精度在類比推理任務(wù) 8 中定義。 NEG-K 代表 與每個正樣本 k 陰性樣品抽樣負(fù) ; NCE 代表噪聲對比估計和 HS-霍夫曼表示分層 SOFTMA與X基于頻率的霍夫曼碼。其中, f (WI)是單詞 w的頻率, t 是一個選擇的閾值,通常約 10-5. 我們選擇 這個二次抽樣式,因為它積極的單詞次級樣本頻率大于 t 的排名 , 同時保留頻率。

15、 雖然這種二次抽樣公式屬于啟發(fā)式選擇, 我們發(fā)現(xiàn)它在實踐中很好地工作。 它可 以加速學(xué)習(xí)甚至顯著提高的罕見字的學(xué)習(xí)的精度,這將在以下部分中所示被介 紹。3 實證結(jié)果在本節(jié)中 , 我們評估來分層 Softmax(HS), 大概包括噪音對比評估 , 負(fù)采樣 , 二 次抽樣的試驗。我們使用類比推理任務(wù) 1 來引入 Mikolov 等。 8 。該任務(wù)包括 類比,如“德國”的:“柏林” : “法”:? , 這是找到一個向量 x,使得 VEC ( x)根據(jù)余弦距離(我們從搜索輸入字)(“法國”)。 這個具體的例子被認(rèn) 為是已被正確地回答如果 x 為“巴黎”。該任務(wù)有兩個大類:句法類比(如“快 速”:“迅速

16、” : “慢”:“慢慢來”)和語義類比,如全國省會城市的關(guān)系。Skip-gram 模型的試驗,我們已經(jīng)使用了大量的數(shù)據(jù)集, 包括各種新聞報道 (內(nèi) 置谷歌的數(shù)據(jù)集十億字)。我們將詞匯丟棄所有單詞再訓(xùn)練數(shù)據(jù),這導(dǎo)致尺寸 692K的詞匯發(fā)生不足 5 次。以上的字類比試驗 Skip-gram 模型的性能列于表 1。 該表顯示,抽樣負(fù)優(yōu)于分層 SOFTMA的X類比推理任務(wù), 并有稍微大于噪聲的對比 更好的性能。該頻繁的字二次采樣提高了訓(xùn)練速度數(shù)次,讓這個詞表達(dá)更準(zhǔn)確??梢哉f ,skip-gram 模型使其向量的線性更適合線性類比推理,但 Mikolov 等 人的結(jié)果 8 還表明通過標(biāo)準(zhǔn)的遞歸神經(jīng)網(wǎng)絡(luò)

17、(其是高度非線性的) 可以改善這 種情況,使得訓(xùn)練數(shù)據(jù)量增加, 這表明非線性模型也有偏愛這個詞表示的線性結(jié) 構(gòu)。4 學(xué)習(xí)短語正如前面所討論的 , 很多短語都有意義 , 他們并不是一個簡單的組合單個單詞 , 我們首先找到單詞經(jīng)常出現(xiàn)在一起的地方 , 很少在其他的情況。例如,“紐約時 報”“多倫多楓葉” 是由訓(xùn)練數(shù)據(jù)的獨特記號代替, 而兩字“這是”將保持不變。表 2: 例子類比推理任務(wù)的短語 ( 完整的測試集有 3218個例子 ) 。我們的目標(biāo)是 計算使用前三個第四句話。我們最好在這個數(shù)據(jù)集模型實現(xiàn)了72%的準(zhǔn)確性。通過這種方式,我們可以形成許多合理的短語并且不會大幅提高詞匯量的大小 在理論上,

18、我們可以訓(xùn)練 Skip-gram 模型使用所有字格, 但是這將會使得內(nèi)存更 加密集。之前許多技術(shù)已經(jīng)開發(fā)出了識別文本中的詞語 ; 然而,它超出了我們的 工作來所認(rèn)識它們的范圍,所以我們決定用一個簡單的數(shù)據(jù)驅(qū)動的方法,其中, 短語根據(jù)單字組和雙字組計數(shù)形成的,count(wi w j )score(wi ,wj )count( wj ) count(wj )(6)是作為折現(xiàn)系數(shù), 主要是為了防止太多的短語組成的非常罕見單詞。 如果有 會出現(xiàn)頻率高的單詞,通常 , 我們運行 2 - 4 通過降低閾值的訓(xùn)練數(shù)據(jù) , 主要是 用來防止幾個單詞較長的詞組。 我們評估這句話的質(zhì)量的短語用一個新的類比推 理

19、任務(wù)表示。表 2 示出的例子的五類在這個任務(wù)中使用的類比。此數(shù)據(jù)集是在 web2的公開。4.1 Skip-Gram 短語結(jié)果從之前所得要的數(shù)據(jù)的基礎(chǔ)上再進(jìn)行實驗 , 首先要根據(jù)訓(xùn)練資料來構(gòu)造短語, 然后我們用不同的超參數(shù)來訓(xùn)練幾個 Skip-gram 模型。像之前一樣 , 我們使用向 量維數(shù) 300和上下文大小為 5 的設(shè)置。這個設(shè)置可以使數(shù)據(jù)集變得跟家良好 , 而 且可以讓我們快速比較負(fù)抽樣和分層 SOFTMA,X這樣就不會有有頻繁的標(biāo)記二次 抽樣。該結(jié)果歸納于表 3 中。結(jié)果表明,當(dāng)負(fù)采樣達(dá)到 k= 5 的時候就會達(dá)到可觀的精度,當(dāng) K =15 取得的 精度會跟家精確。出人意料的是,當(dāng)我們

20、下采樣頻繁的時候我們發(fā)現(xiàn)了分層 SOFTMA會X 獲得較低的性能在不需要進(jìn)行二次抽樣培訓(xùn)的情況下, 這使得它成為 了最好的執(zhí)行方法。這表明,至少在某些情況下,子采樣可以導(dǎo)致更快的訓(xùn)練, 也可以提高精度。表 3: Skip-gram 模型的精度度在于短語類比數(shù)據(jù)集。從新聞中知道這個模型 培訓(xùn)了大概十億字 。表 4: 最接近給定實體的短語要使用兩種不同的模型表 5: 向量組合使用 element-wise 加法。 四個載體中被標(biāo)記的最近的兩個最好 用 Skip-gram 模型。整個句子的上下文中, 為了最大限度地提高該短語類比任務(wù)的準(zhǔn)確性, 我們提 高了訓(xùn)練數(shù)據(jù)的數(shù)量通過使用數(shù)據(jù)集,約 330 億

21、字。在全文中我們使用分層 SOFTMA模X 型,這導(dǎo)致模型的精度達(dá)到 72。這樣的話我們實現(xiàn)了低精度 66%減 少訓(xùn)練數(shù)據(jù)集的大小為 6 b ,這表明大量的訓(xùn)練數(shù)據(jù)是非常重要的。為了進(jìn)一步深入了解不同型號模型表現(xiàn)的不同, 我們便對相鄰的短語模型做手 工檢查。在表 4 中,我們展示出了一個樣品的比較。與之前的結(jié)果看來,似乎最 好短語表示是短語學(xué)模型與層次 softmax 和二次抽樣。5 附加的語意組合性我們表明,單詞和短語的線性結(jié)構(gòu)表示由 Skip-gram 模型展示, 使得它可以用 簡單的向量執(zhí)行精確的類比推理運算。有趣的是,我們發(fā)現(xiàn), Skip-gram 模型表 現(xiàn)出另一種線性的結(jié)構(gòu), 使得

22、它可以通過一個個元素的加法并且有意義的結(jié)合其 他詞語。這種現(xiàn)象在表 5 中示出。向量的加和性可以通過檢查培訓(xùn)目標(biāo)來解釋。這個詞向量的線性關(guān)系由 softmax 非線性輸入。因為這個詞向量,載體可以被看作是代表其中出現(xiàn)的單詞 在上下文的分布。 這些值相關(guān)的對數(shù)由輸出層計算概率, 所以兩條字向量涉及到 這兩個方面的分布產(chǎn)品。 該產(chǎn)品在這里工作內(nèi)容及功能: 單詞由這兩個詞向量被 分配,高的將具有高概率,以及換言之將有低概率。因此,如果“伏爾加河”在 同一個句子頻頻出現(xiàn),上面就會寫著“俄羅斯”和“河”,這兩個詞向量的總和 將導(dǎo)致這個詞向量的意思,接近“伏爾加河”詞向量。6 發(fā)布詞表示的比較許多工作者曾經(jīng)研究基于神經(jīng)網(wǎng)絡(luò)的表示方法,其中最知名的作者有 Collobert 、 Weston2 、Turian 17 、Mnih 和 Hinton10 等人。我們可以從 WEB3中下載他們的信息。 Mikolov 等人 8 已經(jīng)評估了這些信息,其中Skip-gram 模型可以實現(xiàn)最佳性能,并且可以獲得巨大的利潤表 6:在大家所認(rèn)知的模型和 skip-gram 模型中擁有 300 億個被使用過的子。 空單元的話意味著詞不是詞匯表中。給予更多的了解學(xué)習(xí)質(zhì)量的差別向量 , 我們

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論