陳珍銳, 丁治明
(北京工業(yè)大學(xué) 信息學(xué)部, 北京 100124)
詞向量表示技術(shù)是將自然語(yǔ)言中的每一個(gè)詞語(yǔ)轉(zhuǎn)換為稠密向量形式. 這種表示方法能夠充分的發(fā)揮計(jì)算機(jī)的計(jì)算能力, 并且在現(xiàn)有的自然語(yǔ)言處理任務(wù)中具有廣泛的應(yīng)用, 例如通過(guò)計(jì)算向量之間的距離表示詞語(yǔ)的相似程度可以應(yīng)用在信息檢索[1]、文檔分類[2]和問(wèn)答系統(tǒng)[3]等任務(wù).
近幾年來(lái), 有許多關(guān)于詞向量表示技術(shù)的相關(guān)研究. Mikolov[4]提出了Word2Vec模型通過(guò)引入負(fù)采樣和哈夫曼編碼, 使得訓(xùn)練速度比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型[5]得到了大幅的提升, 也使得Word2Vec模型得到了廣泛的應(yīng)用. Pennington[6]提出了GloVe模型, 該模型通過(guò)利用共現(xiàn)矩陣分解的方式得到詞向量. Vilnis等人[7]提出了一種概率模型訓(xùn)練詞向量的方法, 他們將每一個(gè)詞映射為一個(gè)多維高斯分布然后訓(xùn)練該高斯分布的均值和方差, 其中均值就是對(duì)應(yīng)詞語(yǔ)的詞向量. 由于Word2Vec、GloVe等模型并不能有效表示自然語(yǔ)言中廣泛存在的多義詞, 為了解決這個(gè)問(wèn)題, 提升詞向量的表示, Huang[8]引入了多原型詞向量訓(xùn)練模型, 通過(guò)對(duì)上下文詞向量聚類給出目標(biāo)詞的準(zhǔn)確語(yǔ)義, 然后利用全局得分和局部得分定義損失函數(shù)訓(xùn)練多原型詞向量. Facebook智能研究室提出了fastText文本分類器模型[9-11], 該模型可以在保證分類質(zhì)量的同時(shí), 大大縮短文本分類的訓(xùn)練時(shí)間. FastText模型也能夠用來(lái)訓(xùn)練詞向量, 通過(guò)借鑒Skip-gram構(gòu)建哈夫曼編碼樹(shù)思路加速模型的計(jì)算.但是fastText通過(guò)加入n-gram特征保留了詞語(yǔ)的語(yǔ)序信息提高分類的準(zhǔn)確率, 同時(shí)也使得其訓(xùn)練的詞向量能夠?qū)ι傻牡皖l詞詞向量有較好的表示效果, 并且對(duì)于詞典以外的單詞, 可以通過(guò)疊加它們字符級(jí)別的n-gram向量獲得該詞典外單詞的詞向量.
本文提出一種改進(jìn)的GloVe模型訓(xùn)練詞向量的方法. GloVe模型是一種基于共現(xiàn)矩陣分解生成詞向量的基本模型, 同Word2Vec、wordrank[12]等模型一樣可以根據(jù)語(yǔ)料庫(kù)的統(tǒng)計(jì)信息訓(xùn)練詞向量并捕捉詞語(yǔ)間的語(yǔ)法和語(yǔ)義信息. 本文通過(guò)分析GloVe模型共現(xiàn)矩陣的特點(diǎn), 利用分布式假說(shuō)[13,14]過(guò)濾不能夠代表目標(biāo)詞語(yǔ)義的無(wú)關(guān)詞和噪聲詞, 減少共現(xiàn)矩陣中非零元素?cái)?shù)目,進(jìn)而提高模型的訓(xùn)練速度. 最后,利用Mikolov[15]提出的詞匯類比方法和人為標(biāo)注的詞匯相似性數(shù)據(jù)集對(duì)詞向量的訓(xùn)練效果給出評(píng)價(jià).
GloVe模型是一種對(duì) “詞-詞”共現(xiàn)矩陣X分解而得到的詞向量表示方法. 共現(xiàn)矩陣X中的第i行第j列的值Xij為目標(biāo)詞Vi與上下文詞Vj在語(yǔ)料庫(kù)中的共同出現(xiàn)次數(shù). GloVe模型由于只在全局的非零矩陣元素Xij上進(jìn)行訓(xùn)練, 其訓(xùn)練速度比Word2Vec更加高效. 該模型使用最小二乘法作為損失函數(shù), 同時(shí)對(duì)共現(xiàn)矩陣X中的行和列加入了偏移項(xiàng). 其損失函數(shù)為:
其中, |V|為詞典的大小,wi為目標(biāo)詞的詞向量,wj為上下文詞的詞向量,bi,bj為共現(xiàn)矩陣X行和列的偏移值,f(x)是一個(gè)加權(quán)函數(shù), 用于對(duì)從語(yǔ)料庫(kù)中統(tǒng)計(jì)的低頻詞對(duì)進(jìn)行衰減, 減少低頻噪聲帶來(lái)的誤差, 其定義為:
同時(shí)GloVe模型作者Pennington給出了xmax,α的經(jīng)驗(yàn)值分別為100, 3/4.
我們知道, GloVe模型的共現(xiàn)矩陣中的值Xij是通過(guò)滑動(dòng)窗口對(duì)語(yǔ)料庫(kù)中所有存在窗口內(nèi)的目標(biāo)詞與上下文詞的詞頻統(tǒng)計(jì)信息. 根據(jù)分布式假說(shuō)[13,14]如果兩個(gè)詞語(yǔ)具有相似的上下文那么它們的語(yǔ)義相近. 為了能夠清晰的表達(dá)這種相似, 我們從維基百科中抽取出以下三個(gè)句子:
(1) Several species of pear are valued for their edible fruit and juices.
(2) The peach is seen as the fruit of happiness,riches, honours and longevity.
(3) One type of commonly known gas is steam.
對(duì)于上面句子劃線的三個(gè)詞 pear, peach 和 gas, 由我們的經(jīng)驗(yàn)可知詞對(duì)(pear, peach)關(guān)系要大于詞對(duì)(pear, gas)或 (peach, gas)之間的關(guān)系, 因?yàn)榍罢吖餐瑢儆谒悇e, 而后者并沒(méi)有特別明顯的相關(guān)性. 同時(shí),詞對(duì)(pear, peach)相關(guān)性我們可以從句子(1), (2)中看出,它們擁有共同上下文詞語(yǔ)fruit、of等, 如果當(dāng)語(yǔ)料庫(kù)足夠大時(shí)在pear和peach的上下文中會(huì)有更多的詞語(yǔ)代表它們的共同含義例如tree、leaf、delicious等,但是gas的上下文中幾乎不可能出現(xiàn)tree, delicious等上下文詞語(yǔ),這說(shuō)明詞語(yǔ) fruit, tree, delicious能夠代表pear和peach的語(yǔ)義信息而不能表示gas的語(yǔ)義信息.但是在上面的句子中也存在大量的既不能代表pear和peach的語(yǔ)義, 也不能代表gas語(yǔ)義的詞語(yǔ)例如of,and, is等無(wú)關(guān)詞或噪聲詞, 并且在對(duì)語(yǔ)料庫(kù)做統(tǒng)計(jì)的過(guò)程中會(huì)存在大量的無(wú)關(guān)詞或者噪聲詞, 它們的存在使得模型訓(xùn)練需要較長(zhǎng)的時(shí)間, 同時(shí)由于引入噪聲對(duì)詞向量的訓(xùn)練質(zhì)量造成一定的影響, 所以這些詞語(yǔ)是沒(méi)有必要參與公式(1)的運(yùn)算.
表1 pear, peach和gas與他們上下文詞共現(xiàn)概率及關(guān)系
從表1可以看出pear和peach的上下文為k時(shí),比如當(dāng)k為 tree, delicious, fruit時(shí)它們的概率比P(k|pear)/P(k|peach)接近于 1, 但是對(duì)于 P(k|pear)/P(k|gas)的比值卻遠(yuǎn)遠(yuǎn)的大于1或小于1, 也就是越相似的詞它們的上下文詞的共現(xiàn)概率比值越接近于1, 越不相似的詞它們的上下文詞的共現(xiàn)概率比值越不接近與 1. 當(dāng)k為 the, of等無(wú)關(guān)詞時(shí), P(k|pear)/P(k|gas)的比值也接近于1. 通過(guò)分析可以概括出以下規(guī)律:
1 )對(duì)于詞義相似的詞a,b和它們的上下文詞k有:
2)對(duì)于詞義不相似的兩個(gè)詞a,c和上下文詞k, 當(dāng)k不為無(wú)關(guān)詞, 則有:
當(dāng)k為無(wú)關(guān)詞時(shí), 此時(shí)可以得到與公式(3)相似的公式:
從上節(jié)的分析可以看出當(dāng)詞語(yǔ)a,c不相似時(shí),給定上下文詞k可以從他們的的共現(xiàn)概率比值中獲得k是否為無(wú)關(guān)詞信息. 例如從表1中我們發(fā)現(xiàn)當(dāng)上下文詞k為 tree, steam 時(shí), P(tree|pear)/P(tree|gas)=404.55,P(steam|gas)/P(steam|pear)=55,它們的比值都要遠(yuǎn)遠(yuǎn)大于 1, 所以上下文詞 tree, steam 不為無(wú)關(guān)詞, 并且 tree能夠用來(lái)表示pear的語(yǔ)義, 而steam表示gas的語(yǔ)義.而上下文詞為無(wú)關(guān)詞the, of時(shí), P(the|pear)/P(the|gas)=1.05、P(of|gas)/P(of|pear)=1.09它們的共現(xiàn)概率比值接近于1. 如果假設(shè)詞語(yǔ)a、c在給定上下文詞k時(shí), 共現(xiàn)概率比值為:
其中,γ為設(shè)置的超參數(shù). 我們可以歸納以下結(jié)論:
若a,c為不相似的兩個(gè)詞, 給定上下文詞k時(shí):
1)若共現(xiàn)概率比值γ≈1時(shí) (公式 (5)), 此時(shí)k為無(wú)關(guān)詞;
2)若共現(xiàn)概率比值γ>>1 時(shí) (公式 (4)), 此時(shí)k可以用于代表a或c的語(yǔ)義詞.
根據(jù)上面的結(jié)論我們考慮如何選擇與a不相似的詞c來(lái)過(guò)濾無(wú)關(guān)詞. 例如要過(guò)濾出pear上文中的無(wú)關(guān)詞,如何選擇與pear不相似的詞語(yǔ)gas. 這里給出了以下式子選擇與a不相似的詞語(yǔ)c:
其中,a,c∈V,wa,wc分別為a,c對(duì)應(yīng)的詞向量. 由分布式假設(shè)我們知道如果兩個(gè)詞語(yǔ)上下文越相似, 那么它們的語(yǔ)義越相似, 它們的余弦距離越大, 它的逆否命題為如果兩個(gè)詞語(yǔ)的余弦距離越小, 那么這兩個(gè)詞語(yǔ)的上下文越不相似, 它們的語(yǔ)義相差越遠(yuǎn), 所以兩個(gè)詞語(yǔ)的相似關(guān)系可以使用余弦距離給出. 公式(7)給出選擇不相似詞語(yǔ)的一般公式, 即從所有與a的余弦距離小于0的集合c中隨機(jī)的選擇N個(gè)不相似的詞語(yǔ)過(guò)濾a中的無(wú)關(guān)詞, 這樣既可以減小共現(xiàn)矩陣中非零元素?cái)?shù)量, 加快訓(xùn)練時(shí)間, 又可以使得實(shí)驗(yàn)效果得到改進(jìn), 然后結(jié)合公式(6)給出的結(jié)論過(guò)濾出無(wú)關(guān)詞.
總而言之, 為了能夠過(guò)濾出共現(xiàn)矩陣中的無(wú)關(guān)詞與噪聲詞, 提高詞向量的訓(xùn)練質(zhì)量, 并加快詞向量的訓(xùn)練效率, 本文方法可以概括為以下三個(gè)步驟:
1)對(duì)于詞典中的每個(gè)詞a利用余弦距離找到與其余弦距離小于0的詞語(yǔ)集合set(c);
2)從集合set(c)中隨機(jī)的選擇N個(gè)詞語(yǔ), 結(jié)合公式(6)及其結(jié)論從原共現(xiàn)矩陣中過(guò)濾出無(wú)關(guān)詞、噪聲詞, 生成新的共現(xiàn)矩陣;
3)將新的共現(xiàn)矩陣代入公式(1)訓(xùn)練新的詞向量.
我們使用維基百科數(shù)據(jù)集(wiki2010)訓(xùn)練詞向量.該數(shù)據(jù)集包含大約10億個(gè)單詞, 用NLTK工具包中的方法對(duì)該數(shù)據(jù)集進(jìn)行分詞, 并且將所有大寫字母轉(zhuǎn)換為小寫形成新的語(yǔ)料庫(kù), 然后使用30 000個(gè)出現(xiàn)最頻繁的單詞形成字典, 利用字典和左右為10的滑動(dòng)窗口處理新的語(yǔ)料庫(kù)構(gòu)成共現(xiàn)矩陣.
在使用公式(1)訓(xùn)練后每個(gè)單詞會(huì)得到兩份詞向量分別是目標(biāo)詞向量W和上下文詞向量, 因?yàn)槲覀兪褂米笥覟?0的滑動(dòng)窗口生成的共現(xiàn)矩陣為對(duì)稱矩陣, 所以W,也是幾乎相等的, 只是由于它們的初始值不同而造成稍微不同[6], 另外Ciresan[16]指出對(duì)于某種類型的神經(jīng)網(wǎng)絡(luò), 通過(guò)結(jié)合該網(wǎng)絡(luò)中的多個(gè)參數(shù)可以幫助減少過(guò)度擬合和噪聲的影響, 從而改善詞向量的訓(xùn)練結(jié)果. 本文使用了W+作為最終的詞向量, 這樣做可以在詞語(yǔ)語(yǔ)義類比實(shí)驗(yàn)中增加準(zhǔn)確率. 本文若無(wú)特別指出, 其他的相關(guān)的參數(shù)如xmax,α等與Pennington[6]在GloVe模型中設(shè)置相同.
在對(duì)詞向量訓(xùn)練效果評(píng)價(jià)上, 我們使用Mikolov[4]提出的詞語(yǔ)類比數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 該類比數(shù)據(jù)集包含19 544個(gè)問(wèn)題, 分為語(yǔ)義類比和語(yǔ)法類比兩部分. 另外,本文給出了超參數(shù)N,γ在不同取值時(shí)對(duì)詞向量質(zhì)量的影響, 同時(shí)在幾個(gè)標(biāo)準(zhǔn)的詞語(yǔ)相似度數(shù)據(jù)集上對(duì)訓(xùn)練的詞向量質(zhì)量進(jìn)行評(píng)估.
我們使用了標(biāo)準(zhǔn)的詞語(yǔ)相關(guān)性數(shù)據(jù)集對(duì)訓(xùn)練的詞向量結(jié)果進(jìn)行評(píng)估,其中包括SimLex[17], WordSim-353、WS-S (similarity)、WS-R (relatedness)[18], MC[19],MEN[20], RG[21], YP[22]和 RW[23]. 這些數(shù)據(jù)集包含一系列的單詞對(duì)列表, 每個(gè)單詞對(duì)的相似度都有人為的評(píng)分, 我們通過(guò)計(jì)算人為打分和訓(xùn)練的詞向量之間的皮爾遜系數(shù)[24]得出詞向量與人為打分之間的相關(guān)性, 皮爾遜系數(shù)越高, 則相關(guān)性越大, 詞向量的訓(xùn)練效果也就越好.
表2 不同的詞向量訓(xùn)練模型在詞語(yǔ)相似度數(shù)據(jù)集上的皮爾遜系數(shù)
表2給出了Skip-gram、CBow、LG (Gaussian embedding)[7]、Glove以及GloVe-r15在詞語(yǔ)相似度數(shù)據(jù)集的皮爾遜系數(shù). 所有這些模型使用相同的維基數(shù)據(jù)集, 詞向量維度均為300維, 其中GloVe-r15使用了N=3,γ=15 的訓(xùn)練結(jié)果. 從總體上來(lái)看, 這些不同模型在所有的詞語(yǔ)相似度數(shù)據(jù)集得到的皮爾遜系數(shù)都非常接近, 并且各個(gè)模型在不同的數(shù)據(jù)集皮爾遜系數(shù)都有最大值. Skip-gram在WS和MC數(shù)據(jù)集上的皮爾遜系數(shù)最高. 本文模型GloVe-r15在數(shù)據(jù)集MEN, YP上取得較好的效果, 在其它不同的數(shù)據(jù)集上與其它模型差距也非常小. 從表格中看出, 我們的方法可以有效的捕捉詞語(yǔ)相似性關(guān)系, 并且與其它模型訓(xùn)練在詞語(yǔ)相似度皮爾遜系數(shù)也非常接近.
Mikolov[4]提出了通過(guò)詞語(yǔ)類比實(shí)驗(yàn)檢驗(yàn)詞向量的訓(xùn)練質(zhì)量. 該方法主要通過(guò)回答類似于“如果a與b相似, 正如c與d相似”的問(wèn)題, 這些問(wèn)題又分為語(yǔ)義問(wèn)題和語(yǔ)法問(wèn)題兩部分. 語(yǔ)義問(wèn)題主要是對(duì)稱謂和地點(diǎn)進(jìn)行類比檢驗(yàn), 比如“boy”與“girl”相似, 正如“brother”與“sister”相似. 語(yǔ)法問(wèn)題主要來(lái)對(duì)動(dòng)詞時(shí)態(tài), 單復(fù)數(shù)等形式進(jìn)行驗(yàn)證, 比如“dance”與“dancing”相似, 正如“decrease”與“decreasing”相似. 在計(jì)算的過(guò)程中, 方法是假設(shè)實(shí)驗(yàn)中的某個(gè)單詞是未知的, 例如假設(shè)d未知,通過(guò)余弦距離找到與wb-wa+wc最相近的詞向量wd',檢查詞d'是否與d一致, 若一致則認(rèn)為類比正確.
表3給出了使用不同模型在不同的維度下詞語(yǔ)類比實(shí)驗(yàn)準(zhǔn)確率, 其中GloVe-r15是本文提到的方法將N設(shè)置為3,γ設(shè)置為15時(shí)所得到的實(shí)驗(yàn)結(jié)果. 我們主要對(duì)比了流行的詞向量訓(xùn)練方法Skip-gram, CBow,GloVe模型, 同時(shí)給出了fasttext在詞向量300維時(shí)的訓(xùn)練結(jié)果.這些模型使用了wiki2010數(shù)據(jù)集進(jìn)行訓(xùn)練,并且詞典大小、滑動(dòng)窗口大小等超參數(shù)也都盡可能的保持相同. 從表3中可以得出以下結(jié)論.
表3 不同模型在不同詞向量維度下詞語(yǔ)類比實(shí)驗(yàn)準(zhǔn)確率(%)
1) 隨著詞向量維度的增加, 所有模型的詞語(yǔ)類比實(shí)驗(yàn)準(zhǔn)確率都在提高. 因?yàn)榫S度越大詞向量對(duì)共現(xiàn)矩陣信息擬合的越準(zhǔn)確, 故而詞語(yǔ)類比實(shí)驗(yàn)準(zhǔn)確率也會(huì)越高.
2) fasttext訓(xùn)練時(shí)間最長(zhǎng), 除 fasttext之外, 在其他模型的相互比較中Skip-gram在相同的維度下訓(xùn)練時(shí)間最長(zhǎng). fasttext主要是用于文本分類, 通過(guò)使用字符間的n-gram信息提高分類的準(zhǔn)確性. 我們?cè)谟?xùn)練詞向量時(shí)也加入詞的n-gram特征, 其在訓(xùn)練過(guò)程中主要訓(xùn)練單詞的組成成分[9], 需要訓(xùn)練的詞向量也由原來(lái)的K擴(kuò)大為K'(K'的取值與n-gram的n取值范圍有關(guān)),由于fasttext采用了層次Softmax優(yōu)化[10], 需要訓(xùn)練詞向量K大小變化相對(duì)于算法復(fù)雜度 O (dlog2(K))影響較小. 其性能損失主要來(lái)源于損失函數(shù)計(jì)算和反向傳播過(guò)程中由只對(duì)單詞的計(jì)算變?yōu)閷?duì)單詞組成成分計(jì)算,進(jìn)而需要更多的處理器和內(nèi)存交互而影響算法性能.但是如果不在fasttext加入n-gram特征, 那么fasttext模型將退化為Skip-gram模型, 從而失去比較的意義. 通過(guò)加入n-gram語(yǔ)法可以獲得詞典外單詞的詞向量, 擴(kuò)展詞典的表示范圍, 同時(shí)Bojanowski在論文第六節(jié)[9]中給出了n-gram語(yǔ)法在詞語(yǔ)語(yǔ)義相似度和詞素關(guān)系的定性分析.
3) 在相同的詞向量維度下本文的方法是所有相關(guān)模型中用時(shí)最短, 語(yǔ)義類比實(shí)驗(yàn)結(jié)果最好的模型, 但是在語(yǔ)法類比實(shí)驗(yàn)中其準(zhǔn)確率相對(duì)于原始GloVe模型在下降, 這是因?yàn)樵谑褂梅植际郊僭O(shè)過(guò)濾共現(xiàn)矩陣時(shí)主要考慮的是語(yǔ)義信息, 使得模型在語(yǔ)法信息捕捉下降.我們可以通過(guò)引入對(duì)單詞的語(yǔ)法信息提高語(yǔ)法實(shí)驗(yàn)準(zhǔn)確性, 本文第5節(jié)給出了處理方法.
由于詞向量的訓(xùn)練質(zhì)量會(huì)受到N,γ值的影響,圖1給出了當(dāng)N=3時(shí),γ不同取值時(shí)詞語(yǔ)類比實(shí)驗(yàn)準(zhǔn)確率. 從圖1可以發(fā)現(xiàn),γ對(duì)于詞向量的訓(xùn)練質(zhì)量影響較小. 但是當(dāng)γ取較大值時(shí)準(zhǔn)確率有稍微下降. 圖2給出了γ=15,N的不同取值時(shí)對(duì)實(shí)驗(yàn)準(zhǔn)確率的影響. 當(dāng)N取較大值時(shí), 詞語(yǔ)類比實(shí)驗(yàn)的準(zhǔn)確率有明顯下降, 實(shí)驗(yàn)表明, 當(dāng)N取值在[3, 7]之間,γ在[10, 20]區(qū)間時(shí)可以取得相對(duì)較好的實(shí)驗(yàn)結(jié)果.
圖1 N=3, γ不同取值時(shí)詞語(yǔ)類比實(shí)驗(yàn)準(zhǔn)確率
圖2 γ=15, N不同取值時(shí)詞語(yǔ)類比實(shí)驗(yàn)準(zhǔn)確率
本文通過(guò)分析GloVe模型共現(xiàn)矩陣特點(diǎn), 提出了一種過(guò)濾出共現(xiàn)矩陣中無(wú)關(guān)詞的方法, 該方法可以在不影響詞向量質(zhì)量的前提下, 縮短詞向量的訓(xùn)練時(shí)間,并且能夠更好的捕捉詞語(yǔ)間的語(yǔ)義信息. 但是, 本文方法雖然在語(yǔ)義類比實(shí)驗(yàn)得到提升,同時(shí)也會(huì)造成語(yǔ)法類比實(shí)驗(yàn)結(jié)果的下降, 未來(lái)可以從兩個(gè)方向利用語(yǔ)法信息對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行改進(jìn): 1)保留共現(xiàn)矩陣中形態(tài)變化詞的詞頻統(tǒng)計(jì)信息. 即使用NLTK對(duì)詞典進(jìn)行詞形歸一化, 找到所有能夠進(jìn)行詞形歸一化的形態(tài)變化詞,保留這些的詞頻統(tǒng)計(jì)信息, 只對(duì)非形態(tài)變化詞進(jìn)行共現(xiàn)矩陣中詞頻統(tǒng)計(jì)處理. 2)借鑒fasttext在詞語(yǔ)層面的ngram思路. 將形態(tài)變化詞進(jìn)行詞干提取形成詞干+詞尾的形式, 此時(shí)wi=ws+wl其中ws為詞干詞向量,wl為詞尾詞向量, 并且詞尾詞向量表示了語(yǔ)法信息. 由訓(xùn)練詞向量wi變?yōu)橛?xùn)練詞向量ws和wl.
最后, 本文給出一種提升詞語(yǔ)語(yǔ)義相似度新方法,實(shí)驗(yàn)表明, 該方法在語(yǔ)義相似度實(shí)驗(yàn)中比傳統(tǒng)詞向量訓(xùn)練方法能夠獲得了更好的結(jié)果, 也為深度學(xué)習(xí)在自然語(yǔ)言處理上層應(yīng)用提供了更好的表示.