唐雨?曾蒙田
摘 要:采用深度學(xué)習(xí)方法學(xué)到的詞向量,與語言學(xué)義素還有距離,向傳統(tǒng)語義學(xué)義素系統(tǒng)靠攏是有意義的。這里提出了避讓原則,和提取向量或“呼喚”向量,相應(yīng)地,概率語言模型有所改變。本文找到了兩種規(guī)范詞向量的方法:學(xué)習(xí)中注入自組織核心和學(xué)到詞向量的線性變換矩陣,把向量分量排列規(guī)范化,表示出名字。討論中涉及語言語義學(xué)對詞向量學(xué)習(xí)處理的各種啟發(fā)。
關(guān)鍵詞:人工智能;深度學(xué)習(xí);自然語言處理;詞向量;語義
中圖分類號:H030 文獻(xiàn)標(biāo)識碼:A 收稿日期:2016-02-01
一、相關(guān)工作
本文最后所列的參考文獻(xiàn)[2]曾經(jīng)提出模式自動機想法,模式是滿足關(guān)系的一組要素:f(x1,x2,...,xn)。模式自動機是模式的變動: f(x1,x2,...,xn)=F[f(x1,x2,...,xn)]。模式關(guān)系滿足時有不動點。神經(jīng)元網(wǎng)可看成模式: V=W.U 。 對矩陣和向量調(diào)整方法和終止條件看成模式自動機。每個可變項有“信息硬度級”:“目標(biāo),已知,假設(shè),未知”。學(xué)習(xí)推理過程中,“已知”的項作為知識不變,而要求可變項隨自己變動,這就成為自組織核心。
參考文獻(xiàn)[3]、[4]、[5]是對詞向量的研究及綜述,通過不同的參數(shù)和語料庫,可以學(xué)習(xí)50~1000維的詞向量,能進(jìn)行語義計算,如:V(羅馬)=V(巴黎)-V(法國)+ V(意大利)。依照語義學(xué),詞向量應(yīng)該能夠表示義素,但義素不知名,組合而不分離,順序隨機,沒有語義軸——對立關(guān)系。
參考文獻(xiàn)[7]研究了詞義聯(lián)合,如果兩詞的向量是a、b,分別有矩陣A、B,聯(lián)合詞義向量是c=f(B.a+A.b),解釋是b詞,對a詞進(jìn)行一些修飾變化,反之亦然。
參考文獻(xiàn)[6]給出機器翻譯方法,利用詞向量之間空間關(guān)系守恒原理,對兩種語言分別進(jìn)行無監(jiān)督學(xué)習(xí),提供部分雙語對照語料,學(xué)習(xí)源語言到目標(biāo)語言的線性變換V(d)=W·V(s),之后對源語言單詞的向量做變換,在目標(biāo)語言向量空間找到余弦最近向量,相應(yīng)詞就是翻譯結(jié)果。
二、語義避讓、呼喚向量和新模型
1.語義避讓
描述詞義的向量的各個特征應(yīng)該是互相補充關(guān)系,不應(yīng)混淆,所以應(yīng)該各安其位。比如,描述實質(zhì)的名詞和修飾名詞的形容詞,應(yīng)在同一向量中,各有一組向量分量,不是組合的,這就是語義避讓。語義學(xué)里義素表達(dá)一個單獨特征,以“+”表示“有”,以“-”表示“相反”。這樣可以清晰地、正交地容納不同語義信息。
語義向量內(nèi)部義素應(yīng)該避讓,大概的結(jié)構(gòu)是:特征段+名詞段+動作關(guān)系段+賓語段+間接賓語段。邏輯上,可有下面分段的抽象示意性結(jié)構(gòu):
[adj ( attributes )(adv:degree)+
N(kind0,subject?number) + V(what action or have what relation)(preposition:structure)(adv: how,when,where)+object1(kind1)+object2(kind2)+ bias ]
對名詞向量,如果可做賓語,kind1、kind2是kind0的摘要,這是冗余部分。相應(yīng)地,動詞要求賓語,可在呼喚向量對應(yīng)位置為1 。如果知道是主格,如英文I 、he,object 段是0 。如果是賓格,N的是否主語維是0 。介詞與結(jié)構(gòu)相關(guān),利用簡明的語法規(guī)律,可以從不同詞向量取N、object1、object2段。
即使做了規(guī)范化,有些義素成為知名的,還可保留很多不明確知道含義的信息,這樣能使微妙信息得到表示。
bias 是偏置項,可不限制在[-1,1]區(qū)間內(nèi)。如果是負(fù)數(shù),絕對值較大,則說明結(jié)合中要求嚴(yán)格,不成立機會大;如果是正數(shù),說明結(jié)合要求寬松。而呼喚向量尾上總是1 。
2.呼喚向量
現(xiàn)在的向量學(xué)習(xí)是通過向量點乘衡量結(jié)合概率的,這樣,向量內(nèi)容實際上應(yīng)該是自身攜帶信息和與其他詞結(jié)合度信息的混合。如果實現(xiàn)了上述避讓,本該結(jié)合的單詞之間,非零分量的位置不同,沒有相交點,這才有必要結(jié)合互相補充修飾。因為語義表達(dá)清晰的詞向量之間交叉少,計算點乘是不能反映結(jié)合性的,這就要求在作為主詞和作為其他詞語境時,使用不同的向量。
我們把在可以修飾自己、可以修飾對方、互相不沖突的義素位置取1的向量,稱作“呼喚向量”,或“提取向量”。它呼喚相應(yīng)的信息,在進(jìn)行詞結(jié)合時,通過按位乘,提取可結(jié)合信息。對詞w,有Vs(w)和Vc(w),Vs(w)是語義向量,Vc(w)是呼喚向量。定義按位乘算符為雙點“ ..” ,如 Vs(x)..Vc(y)提取能修飾單詞y的單詞x中信息。
我們與文獻(xiàn)[7]對 A·b+B·a 進(jìn)行詞向量結(jié)合的語義解釋不同,認(rèn)為本詞要表示哪些信息與自己相容,并被提取出來修飾自己。a、b 兩詞語義結(jié)合,應(yīng)是:Vs(a)..Vc(b)+Vs(b)..Vc(a)。
呼喚向量與作為語境的衡量與主詞結(jié)合性的向量是一致的,兩者點乘值大,反映結(jié)合性強,共現(xiàn)概率大,按位乘計算量小,意義明確,而且一個位置上的分量,不會與其他位置分量值加減,這與語義學(xué)要求一致。
一個句子中,語義向量和呼喚向量都有避讓,不然是信息重疊,而相應(yīng)地,單個詞的語義向量和呼喚向量之間也是避讓的,因為不會提取已有信息來修飾自己,而且可能造成沖突。提取向量與語義向量的非:非0項置0,0項置1,比較接近。
可以看出,向量如果含滿信息,其具體程度向著完整句子發(fā)展。經(jīng)過避讓分段,句子語義通過句中詞向量相加成為可能。
呼喚向量的結(jié)合,是“按位或”:取兩者最大的(大于閾值看成1),再與各語義向量相加的和向量的非,按位乘,這樣,對缺少的單詞的呼喚指向性更強。當(dāng)然,這里是概念化性討論,實踐中可增加細(xì)節(jié)。
從這種大概的分量段劃分就可看出,呼喚向量為1的位置,應(yīng)該是自己可以結(jié)合的那些分量,排斥和不相關(guān)的位置是0。這樣,與符合呼喚要求的語義向量點乘,值就會大。
比如三目動詞對N、object1、object2三段信息(可能來自三個詞)都有提取。
3.模型變化
通過區(qū)別語義向量和語義呼喚向量,模型改變?yōu)椋篺(x)=1/(1+exp(-x)),
p(w,context)= f(Vs(w). Vc (context )), 或p(w,context)= f(Vc(w). Vs (context))。也可兩者結(jié)合:p(w,context)= f(x),x=α.Vs(w).Vc (context)+ β.Vc(w).Vs(context),其中,α+β=1 。
目標(biāo)是對已有句子,在主詞和語境Vs、Vc 條件下, 使得p(w | context)或p(context | w)最大。
借鑒GloVe,統(tǒng)計出一個全局同句共現(xiàn)矩陣,Mij是單詞i和單詞j的同句共現(xiàn)計數(shù)。隨機取context中單詞都不共現(xiàn)的單詞,這幾行中,取值全是0 的某列對應(yīng)單詞,作為w。以1-p(w | context )最大,對其Vs、Vc向量進(jìn)行訓(xùn)練,這應(yīng)該有利于學(xué)會排斥性。
可以句子為單位,句子太大時可使用前后取5個詞的窗口。這種限制的意義在于刨去冠詞、數(shù)詞等語義稀疏詞、意義比較豐滿的詞,向量求和時,非零項重疊過多,“避讓”不及。
可以比較閾值,對Vc 每次訓(xùn)練后,取 0 、1 兩個值,這樣也能節(jié)省存儲空間和計算速度(乘法變成:置0和不變)。
計算點乘Vs.Vc時,可乘以一個大于1的系數(shù),系數(shù)較大,有利于向量的稀疏化,比如取4,有1/4非零項就達(dá)到所要的概率。
初始化可以按3/4比率對Vs項取0值。而初始化的Vc可使Vs的0值項取1。
當(dāng)然,這些設(shè)想需要在實現(xiàn)過程中加以調(diào)整、細(xì)化。
三、詞向量規(guī)范化
1.使用單義素詞作為基準(zhǔn)
我們的目標(biāo)是使詞向量與義素表示部分地一致起來,使語義處理、理解更加方便。如果前面學(xué)習(xí)模型使得詞向量,特別是單義素詞向量充分稀疏,或者進(jìn)一步通過深度學(xué)習(xí)擅長的能力多層自主學(xué)習(xí),可抽象出上層特征,把組合特征歸納成單一上層特征,就能考慮進(jìn)一步規(guī)范化。
我們想到單義素詞的向量應(yīng)當(dāng)十分稀疏,理想狀態(tài)是單個非零項。所以可選用單義素的形容詞,比如male,female。
由于沒有針對性地指導(dǎo)系統(tǒng)學(xué)習(xí)對立義素,猜測沒有一個性別項,對男性取值1,女性取值 -1,很可能是“是否male”和“是否female”分別存在,分布在不同位置多個項上。與語義學(xué)義素分析參照,可用兩項表示一個義素,并在規(guī)范化知名義素后,把這種信息告訴系統(tǒng),使之能處理對立義素。
比如以(male,female,younger,
elder,……)為向量分量標(biāo)準(zhǔn)順序,male、female、younger、elder 四個單詞的向量分別為:(1,-1,0,0,…)(-1,1,0,0,…)(0,0,1,-1,…)(0,0,-1,1,…),其他維度上,理想情況應(yīng)該為0 。可按位乘0.5,把想強調(diào)的項突出來,呼喚向量通過學(xué)習(xí)得到。
2.注入自組織核心
因為學(xué)到的詞向量中對應(yīng)各分量排列順序是隨機的,而各個詞語之間關(guān)系是反映客觀信息的、守恒的,如果有部分詞向量的前n個分量取值是固定不變的,那么,為了保持詞語間語義關(guān)系,其他詞的向量就會與不變向量分量取得協(xié)調(diào),這樣,加入的含有不變分量的向量,就成為自組織的核心。這相當(dāng)于給選出單詞的前n個分量,賦予了信息硬度級“已知”,把少量的指導(dǎo)學(xué)習(xí)信息加入到基本上無指導(dǎo)學(xué)習(xí)過程中,為自主學(xué)習(xí)帶來一些約束。
在注入向量取值的鉗制下,正學(xué)習(xí)的向量在前n個分量排列,就會和規(guī)范要求一致,甚至在取值上可能更接近典型的-1,0,1,并且,這部分分量在表示信息上可能更加密集。
比如,以(male,female,younger,
elder,……)為向量分量標(biāo)準(zhǔn)順序,注入male、female、younger、elder 四個單詞:(1,-1,0,0,…)(-1,1,0,0,…)(0,0,1,-1,…)(0,0,-1,1,…)。對一些可以有性別描述和相對年齡描述的詞,可強制提取向量相應(yīng)項為1 。
3.通過翻譯變換進(jìn)行規(guī)范化
對于作為基準(zhǔn)的單義素詞,把向量分量位置按規(guī)范要求排列。作為目標(biāo)語言的詞向量,由于V(d)=W·V(s),比如male,學(xué)會的向量,在L位置是1,M位置是-1,其他項很小,想要規(guī)范成(1,-1,0,0,…),W的第1行的第L列為1,其他是0,第L行第1列為1,其余為0;第2行的第M列為1,
其他為0,第M行第2列為1,其余為0;就能完成對male、female兩個分量的交換。完成前n個分量的規(guī)范化,學(xué)會W的前n行就可以了。而呼喚向量用同一個W進(jìn)行位置變換。
當(dāng)然這是理想情況,具體可在male向量中找到絕對值最大兩個分量,其余看成0,學(xué)習(xí)W,之后可以恢復(fù)實際向量各項的值,通過W的線性變換進(jìn)行部分分量的規(guī)范化。m維向量X,Y點乘:∑(i=1,m)xi.yi ,順序改變,不改變加法結(jié)果。
所以本方法和前面的方法由于是統(tǒng)一把所有向量的分量順序進(jìn)行改變,而概率語言模型中的點乘結(jié)果不變,所以學(xué)習(xí)能力與詞出現(xiàn)和共現(xiàn)的概率不變。
進(jìn)行了相同規(guī)范化的多種語言,在機器翻譯時,不必再進(jìn)行線性變換,直接從源語言詞向量尋找目標(biāo)語言單詞。詞向量成為共同的中介。
語義學(xué)規(guī)范化會為理解、處理相關(guān)內(nèi)容帶來益處。
詞向量可以表現(xiàn)深層語義,對詞向量進(jìn)行語義學(xué)規(guī)范化,從向量中得到更多“知名義素”,將有利于符號化,使得潛意識向顯意識的轉(zhuǎn)化成為自然、有意義的過程。
規(guī)范后,機器翻譯可直接利用知名義素的名,如:V(表哥)-V(cousin)=V(elder)+V(male),V(表哥)=V(elder)+V(male)+ V(cousin),elder和male 是知名義素,可直接提取,不必學(xué)習(xí)英語使用者較少使用的短語elder male cousin。
通過單義素詞學(xué)到知名義素,并學(xué)會對立義素,可顯性處理二元對立語義,也可以用一項代替兩項,與義素表示進(jìn)一步一致。
這里的討論,動機來自把詞向量引向語義學(xué)義素組的性質(zhì),區(qū)分詞的語義向量和語義呼喚向量,帶來詞向量學(xué)習(xí)的概率模型的變化。未來工作是這種模型、兩種規(guī)范化方法的程序?qū)崿F(xiàn)。
參考文獻(xiàn):
[1]賈彥德.語義學(xué)導(dǎo)論[M].北京:北京大學(xué)出版社,1986.
[2]唐 雨.作為概念的模式自動機[A].中國計算機學(xué)會.99青島—香港國際計算機會議論文集[C].青島,1999.
[3]Tomas Mikolov,Ilya Sutskever,Kai Chen, et al.Distributed Represent-
ations of Words and Phrases and their Compositionality[J].Advanced in Nenral Information Processing Systems,2013.
[4]J.Pennington,R.Socher,C.D.Manning.Glove: Global vectors for word representation[J]. Proceedings of 2014Conrerence on Empiricial Methods in Natural Language Processing,2014.
[5]P. D. Turney,P. Pantel. From frequency to meaning: Vector space models of semantics[J]. Journal of Artificial Intelligence Research,2010.
[6]Richard Socher, Brody Huval, Christopher D. Manning,et al.Semantic Compositionality through Recursive Matrix-Vector Spaces [J].Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012.
[7]Tomas Mikolov,Quoc V. Le,Ilya Sutskever. Exploiting Similarities among Languages for Machine Translation[J].Eprint Arxiv,2013.