計算語義合成性綜述

2016-05-04 00:41:23王超超熊德意

中文信息學(xué)報 2016年3期

關(guān)鍵詞：短語分布式語義

王超超，熊德意

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006)

計算語義合成性綜述

王超超，熊德意

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006)

隨著自然語言處理技術(shù)的飛速發(fā)展，單純在語法層上的研究已經(jīng)不能解決目前的問題，語義層的研究逐漸成為熱點。計算語義合成性作為語義學(xué)的關(guān)鍵部分，受到了諸多研究人員的關(guān)注。計算語義合成性的研究方法可以分為兩大類: 語言學(xué)方法和分布式方法。該文詳細(xì)介紹了它們各自具有代表性的工作，著重闡述了近年來使用廣泛的深度學(xué)習(xí)方法在計算語義合成性研究中的應(yīng)用，并對這兩種方法進(jìn)行了比較；然后對計算語義合成性在情感分析以及機(jī)器翻譯中的應(yīng)用做了細(xì)致分析；最后，展望了計算語義合成性未來的研究趨勢。

語義合成；自然語言處理；分布式方法；深度學(xué)習(xí)

1 引言

自然語言在語言學(xué)上一般被劃分為四個層次: 語音文字層、語法層、語義層和語用層[1]，目前對于前兩層的研究相對比較成熟，越來越多的研究人員開始聚焦于語義層的研究。計算語義合成性作為語義層研究的重要組成部分，可以利用單詞的語義信息合成短語乃至句子的語義信息，從而進(jìn)一步擴(kuò)大語義信息的表示范圍。因此，近年來計算語義合成性在人工智能、自然語言處理的諸多領(lǐng)域得到了廣泛的應(yīng)用[2]。

計算語義合成性是一個古老的概念，最早可以追溯到柏拉圖，他在一次對話中指出: 一句話由名詞和動詞組成，如果動詞能夠表示名詞當(dāng)前正在執(zhí)行的動作，則這句話是正確的[3]。換句話說，柏拉圖闡述了語義合成性的一般原則，即每句話都具有一定的結(jié)構(gòu)；每句話中的各個部分都具有不同的功能；這句話的意思由它的各組成部分的意思所決定。

1892年，德國著名哲學(xué)家、邏輯學(xué)家Frege[4]正式提出了計算語義合成性的概念: 合成表達(dá)的語義由它的各組成部分的語義以及連接它們的規(guī)則所共同決定。它是形式語義學(xué)的一個基本原則，也是允許語言使用者們理解他們從未聽過的短語和句子語義的一個基本原則。形式語義學(xué)以數(shù)學(xué)為工具，利用符號和公式精確定義和解釋語言的語義，強(qiáng)調(diào)語義解釋和句法結(jié)構(gòu)的統(tǒng)一。1995年，Partee等人[5]進(jìn)一步闡述了計算語義合成性的概念: 整體語義是部分語義通過函數(shù)運算并按一定的語法規(guī)則組合在一起而得到的語義表示。因此，目前計算語義合成性的工作主要集中于發(fā)現(xiàn)更好的單詞表示以及更好的合成規(guī)則這兩個方面。了解單詞的語義以及各個單詞之間的連接規(guī)則，人類可以很容易識別句子的語義和創(chuàng)造新的句子，但是對于計算機(jī)這仍然是一件非常具有挑戰(zhàn)性的工作。

縱觀國內(nèi)外研究人員關(guān)于計算語義合成性的研究現(xiàn)狀，根據(jù)所處階段的不同以及單詞表示方法的不同，我們將計算語義合成性的研究方法分為以下兩大類[6-7]。

(1) 語言學(xué)方法: 采用語言學(xué)方法進(jìn)行計算語義合成性的研究主要起源于Montague等[8]的工作，包括諸如λ演算等符號邏輯表示的方法[9]。這些語言學(xué)方法在語義學(xué)研究中發(fā)揮了重要的作用，它們將語言學(xué)的研究方法與計算語義合成性的原則有機(jī)結(jié)合，使得我們可以用組合的方法分析語法與語義之間的對應(yīng)關(guān)系。但是采用語言學(xué)方法僅能簡單表示已知子表達(dá)式利用合成規(guī)則所得到的合成表達(dá)式正確與否，并不能明確表示單詞、短語以及句子的語義信息，同時也不能對結(jié)果進(jìn)行定量分析[2]。

(2) 分布式方法: 近年來有關(guān)計算語義合成性的研究多基于分布式方法[10]。分布式方法在單詞表示、識別單詞之間的語義相關(guān)性以及處理合成性等方面取得了顯著進(jìn)步，有效克服了采用語言學(xué)方法進(jìn)行語義合成性研究時所出現(xiàn)的表達(dá)能力弱、不便于計算等問題。

對比發(fā)現(xiàn)，分布式方法比語言學(xué)方法在計算語言合成性的研究中有更具體的單詞表示，且采用了更簡單的合成運算方法[4]。使用分布式方法獲取到的短語和句子的語義信息,可以更方便地應(yīng)用于情感分析以及統(tǒng)計機(jī)器翻譯等諸多自然語言處理的任務(wù)中。

本文第二章詳細(xì)介紹了語言學(xué)方法在計算語義合成性研究中的應(yīng)用，第三章詳細(xì)介紹了分布式方法在計算語義合成性研究中的應(yīng)用，第四章比較了計算語義合成性研究中的語言學(xué)方法與分布式方法，第五章舉例闡述了近年來計算語義合成性在情感分析以及統(tǒng)計機(jī)器翻譯領(lǐng)域的應(yīng)用。最后總結(jié)了計算語義合成性的研究現(xiàn)狀并展望了未來的研究方向。

2 語言學(xué)方法

根據(jù)Montague等[8]所提出的方法,使用語言學(xué)方法進(jìn)行計算語義合成性研究必須具備以下兩個先決條件: 擁有能夠提供單詞與邏輯表達(dá)形式相對應(yīng)的邏輯詞典；能夠提供正確的語義合成規(guī)則。針對第二點，Bach等[11]提出了一種規(guī)則到規(guī)則的假設(shè)，即在語法和語義之間存在著一種映射關(guān)系，可以利用語法層的合成運算來近似表示語義層的合成運算。

λ演算最早由Church等提出用來研究函數(shù)定義、函數(shù)應(yīng)用和遞歸的形式系統(tǒng)[12]。在確定語法規(guī)則的基礎(chǔ)上，使用λ演算能有效進(jìn)行語法層的合成運算，因此根據(jù)Bach等提出的規(guī)則到規(guī)則的假設(shè)，可以將λ演算應(yīng)用于語義層的合成運算。以文獻(xiàn)[2]所舉的實例為例，假如要得到“Every car runs”的合成語義表示，首先從邏輯詞典中獲取每個單詞的語法類型和邏輯表示形式即λ表達(dá)式，如式(1)所示。

a.everyDet:λP.λQ.?x[P(x)→Q(x)]

b.carN:λy.car(y)

(1)

c.runsVerb:λz.runs(z)

其中，邏輯詞典為存取所有單詞語義信息的邏輯形式的集合，λ表達(dá)式為用λ運算符約束每一個變量的數(shù)學(xué)式。(1a)表示一個限定詞的語義邏輯表示形式，λP、λQ起到了占位符的作用,并不表示具體值，這些未知的變量可以用一組實體詞替換；(1b)表示一個實體名詞的語義邏輯表示形式，y為它的一個特征，通過后續(xù)語法基礎(chǔ)上的進(jìn)一步處理可以對它進(jìn)一步量化，例如y可取為ford，則該表達(dá)式表示ford類的car；(1c)表示一個不及物動詞的語義邏輯表示形式，z為它的一個特征，假設(shè)z也取為ford，而ford確實有runs的屬性，則runs(ford)的語義是正確的。在單詞邏輯表示的基礎(chǔ)上，依據(jù)語法規(guī)則生成如圖1所示帶有詞性特征的簡單語法樹。

圖1 “Every car runs.”的簡單語法樹

從圖1所生成的語法樹中可以獲取兩個簡單的合成運算形式，合成運算(1):Det+N→NP，由限定詞與名詞合成一個名詞短語，其具體的計算過程如式(2)所示。通過使用β-歸約獲取名詞短語的語義邏輯表示形式，所謂β-歸約名用一個簡單的邏輯表達(dá)式替換較復(fù)雜邏輯表達(dá)式中的變量，最終得到它們合成表示的更簡單的邏輯表示形式。首先用(1b)替換(1a)中的變量p，再用x替換(1b)中的變量y，通過兩次β-歸約最終得到名詞短語的邏輯表示形式。

λP.λQ.?x[P(x)→Q(x)](λy.car(y))

→βλQ.?x[(λy.car(y))(x)→Q(x)]

P:=λy.car(y)

→βλQ.?x[car(x)→Q(x)]y:=x

(2)

合成運算(2):NP+Verb→S，由名詞短語與動詞合成一個句子，其具體的計算過程如式(3)所示，同樣使用多次β-歸約最終得到整句話的語義邏輯表示形式。

λQ.?x[car(x)→Q(x)](λz.runs(z))

→β?x[car(x)→(λz.runs(z))(x)]

(3)

Q:=λz.runs(z)

→β?x[car(x)→runs(x)]z:x

通過上述計算最終生成如圖2所示帶有語義特征的語法樹，從樹中可以獲取到“Every car runs”采用邏輯表達(dá)式表示的語義信息即為?x[car(x)→runs(x)]。

圖2 帶有語義特征的語法樹

3 分布式方法

在計算語義合成性研究中語言學(xué)方法的一個最大弊端是: 從詞典中獲取單詞的邏輯表示并不能表示單詞的具體含義，因此不能處理單詞語義相似度比較[13]、語義角色標(biāo)注[14]等諸多問題。分布式方法使用向量表示單詞，每個單詞都具有特定的語義信息。在單詞向量表示的基礎(chǔ)上，參考文獻(xiàn)[2]提出了計算語義合成性分布式方法的分類體系，本節(jié)詳細(xì)介紹了三種目前常用的語義合成方法，即基于向量混合模型的方法、基于向量矩陣模型的方法和基于深度學(xué)習(xí)的方法。

3.1 基于向量混合模型的語義合成性

Mitchell等[15]基于分布式假設(shè)[16]提出利用向量混合模型來獲取短語和句子的向量表示，其具體的合成模型如式(4)所示。

(4)

其中，u和是兩個單詞的初始向量，R是這兩個單詞之間的語法關(guān)系，K是所需要的背景知識，即構(gòu)造這兩個詞的合成表達(dá)的意思所需要的附加信息或知識。在同一個語料庫中，詞與詞之間、短語與短語之間以及句子與句子之間通常具有相同的R和K，因此上述合成模型進(jìn)一步簡化為式(5)。

(5)

假如利用乘法和加法作為合成函數(shù)，則可以得到向量乘法和帶權(quán)向量加法這兩種具體的計算方法:

(6)

(7)

其中帶權(quán)向量加法中的α和β是兩個可以調(diào)整的表示合成短語中每個單詞的重要程度的權(quán)值。向量混合模型是分布式方法中的最簡單的合成運算形式，利用向量混合模型方法得到的輸出向量可以看作是相關(guān)的輸入向量的元素的混合。向量混合模型方法十分簡單，在許多自然語言處理的任務(wù)，例如文獻(xiàn)檢索、論文評分以及一致性評估等諸多領(lǐng)域得到了廣泛的應(yīng)用，同時它也是評價其他復(fù)雜模型計算語義合成性優(yōu)劣與否的基礎(chǔ)。

此外，Coecke等[17]將張量積引入到了向量混合模型中來。張量積是刻畫兩個不同維度向量之間乘積的函數(shù)，對于兩個向量u和，它們的張量積可以通過式(8)計算得到:

(8)

其中，ci，cj分別為向量u和中每一維的值；ni和nj分別為向量u和的偏置向量。同時，在張量積的基礎(chǔ)上，Coecke等人又提出了將語法特性作為一個向量融入其中的合成運算方法。假設(shè)我們定義u為名詞，為動詞，則其計算過程如式(9)所示。

(9)

3.2 基于向量矩陣模型的語義合成性

基于向量混合模型的計算語義合成性在許多自然語言處理的任務(wù)中取得了良好的效果，但是它仍然不能解決語義合成的核心問題，即從語法層中最直接的淺層詞的語義獲取相應(yīng)語義層的語義。于是，諸多研究人員在最初的向量混合模型基礎(chǔ)上提出了向量矩陣模型的方法，但是主要聚焦于某些特定短語，如動詞及其賓語的合成語義信息表示等。本節(jié)我們以Baroni等人[18]所提出的名詞與形容詞的語義合成運算為例，說明基于向量矩陣模型的語義合成性的相關(guān)問題。

Baroni等提出用向量表示名詞，而修飾該名詞的形容詞則看作是用矩陣表示的將名詞的語義信息映射到名詞短語或形容詞名詞短語語義空間的線性函數(shù)。Baroni等在語義合成一般框架的基礎(chǔ)上，提出形容詞名詞語義合成的計算公式如式(10)所示。

(10)

其中，p是合成的n維的向量，B是修飾名詞的形容詞矩陣，是存儲了名詞的語義信息的向量。

在實際的應(yīng)用中通常使用某種監(jiān)督學(xué)習(xí)的方法來獲取各個權(quán)值矩陣的值，但是并不需要手工標(biāo)記的數(shù)據(jù)，只需要在語料庫中分別訓(xùn)練出不同的形容詞模型，然后再根據(jù)具體的輸入向量對矩陣值做適當(dāng)?shù)恼{(diào)整，從而確保輸入和輸出向量具有相同的維數(shù)。

采用上述向量矩陣模型處理計算語義合成性問題，比簡單的向量混合模型取得了更優(yōu)的結(jié)果，同時也避免了采用張量積時的繁瑣計算。但是目前向量矩陣模型仍然局限于動詞與名詞、形容詞與名詞的合成語義表示，并沒有應(yīng)用到所有組成單詞的合成運算中。

3.3 基于深度學(xué)習(xí)的語義合成性

使用深度學(xué)習(xí)的方法來進(jìn)行計算語義合成性的研究，是目前的趨勢之一。深度學(xué)習(xí)方法本質(zhì)是一類機(jī)器學(xué)習(xí)的算法，最早在2006年由Hinton等人[19]提出，它的概念起源于人工神經(jīng)網(wǎng)絡(luò)的研究，通過組合低層特征形成更加抽象的高層表示屬性的類別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。使用深度學(xué)習(xí)的方法能夠捕獲任意語法類型和長度的短語和句子的語義。深度學(xué)習(xí)的方法的最大優(yōu)勢在于: 它能真正充分地利用上下文信息來預(yù)測出其鄰近詞，而不像上一節(jié)所述的工作那樣，只利用目標(biāo)詞與相關(guān)詞的同現(xiàn)次數(shù)來預(yù)測目標(biāo)詞的語義信息。

圖3 基于深度學(xué)習(xí)方法的合成語義結(jié)構(gòu)圖

Socher等人[20]將深度學(xué)習(xí)的方法應(yīng)用到了計算語義合成性的研究中，利用如圖3所示的神經(jīng)網(wǎng)絡(luò)研究短語和句子的合成語義信息。對于輸入的一對單詞向量c1和c2，利用式(11)可以計算得到合成向量p:

(11)

其中，[c1;c2]表示兩個單詞向量的連接。W和b是模型參數(shù)，g(x)為如sigmoid或tanh的非線性函數(shù)。如圖3所示，圖中帶有實心點的框圖表示輸入的單詞或短語的語義向量，帶空心點的框圖表示通過父節(jié)點重新構(gòu)造生成的與原葉子節(jié)點相對應(yīng)的節(jié)點。葉子節(jié)點c2、c3通過式(11)計算得到它們父節(jié)點的語義向量p1，依此類推，該父節(jié)點語義向量又被用作新的葉子節(jié)點向量計算更長距離的短語語義向量。獲取到父節(jié)點向量p1后，通過式(12)重新構(gòu)造孩子節(jié)點向量。

(12)

對于每一個非葉子節(jié)點，計算它們原始孩子節(jié)點向量與重新構(gòu)造的孩子節(jié)點向量之間的歐幾里德距離作為重構(gòu)誤差，如式(13)所示，通過尋找到誤差最小的根節(jié)點，從而獲取模型的最優(yōu)參數(shù)計算得到合成短語的語義向量。

(13)

Socher等人[21]后續(xù)又對這種簡單的合成模型做了進(jìn)一步的改進(jìn)，借鑒向量矩陣模型方法提出了如圖4所示的MV-RNN模型。首先借助于分詞工具并通過適當(dāng)?shù)恼Z法分析構(gòu)建一棵二元語法樹，然后搜尋樹的每一個葉子節(jié)點得到其向量和矩陣M。其中，向量存儲的是每一個節(jié)點自身的內(nèi)部信息，M存儲的是目標(biāo)節(jié)點與它相鄰節(jié)點之間的連接規(guī)則。對于每一個單詞，首先將它初始化為一個n維的向量，然后利用Collobert等人[22]提出的無監(jiān)督學(xué)習(xí)的方法，對其進(jìn)行進(jìn)一步的優(yōu)化處理，最終得到的向量中存儲了單詞的語義信息。

圖4 基于MV-RNN模型的語義合成實例

對于每一個單詞的矩陣M，首先將它初始化為M=I+ε，其中I是隨機(jī)初始化的值，ε是高斯噪音，如果向量是n維的，則每一個單詞的矩陣M是Rn×n的。因此，對于任意長為m的短語或句子，可以用向量矩陣對: ((c1,M1),(c2,M2)…,(cm,Mm))表示，其中(c1,M1)和(cm,Mm)分別表示短語或句子中單詞的向量矩陣表示形式。

與上述提到的許多用于計算語義合成性的方法不同，深度學(xué)習(xí)的方法預(yù)訓(xùn)練的過程通常非常漫長，例如，計算中所需要的參數(shù)W和b都是通過使用多次迭代運算而得到的，因此需要大量的訓(xùn)練時間，而且也并不能確保訓(xùn)練得到的參數(shù)適用于不同的主題。但是基于深度學(xué)習(xí)的方法訓(xùn)練得到的單詞向量表示帶有更豐富的語義信息，采用非線性的合成運算得到的短語和句子的語義信息也更準(zhǔn)確。

4 語言學(xué)方法與分布式方法比較

前文我們分兩個部分分別闡述了語言學(xué)方法以及分布式方法在計算語義合成性研究中的應(yīng)用。對比諸多計算語義合成性的研究方法，從采用λ演算的語言學(xué)方法到近年來逐步占據(jù)主導(dǎo)地位的基于向量表示的分布式方法，再到現(xiàn)在基于深度學(xué)習(xí)的方法，在這些方法的不斷演變中，計算語義合成性的神秘面紗也逐步被揭開。

語言學(xué)的方法在語義學(xué)的研究中發(fā)揮了重要的作用，它綜合利用使得語義合成的過程得到了簡化，但是語言學(xué)方法不能明確表示單詞的語義信息，對單詞合成的短語進(jìn)行邏輯表達(dá)時，僅能簡單地表示特定子表達(dá)式在一定規(guī)則下所得到的合成表達(dá)式語義的正確與否，并不能定量地分析結(jié)果所包含的語義信息。此外，語言學(xué)方法對于規(guī)則和函數(shù)具有較強(qiáng)的限制，并不適用于大規(guī)模的數(shù)據(jù)處理。

基于向量模型的分布式方法的引入，使得我們可以通過簡單的數(shù)學(xué)運算得到短語以及句子的合成語義信息。分布式語義表示，采用向量表示語義，在語義的表示以及可計算性上得到了極大的改善。尤其是隨著深度學(xué)習(xí)技術(shù)的發(fā)展，能夠真正充分利用整個語料的上下文信息，雖然其所得的向量每一維的具體意義目前仍無法解釋，但是通過相似度計算等諸多處理方式，能極為方便進(jìn)行語義層面的研究。但是由于深度學(xué)習(xí)的方法包含了多層訓(xùn)練模型，并通常需要預(yù)處理，因此它的訓(xùn)練速度通常較慢，仍然有許多值得改進(jìn)的地方[23]。

5 計算語義合成性的應(yīng)用

迄今為止，計算語義合成性在諸多自然語言處理的任務(wù)中得到了廣泛的應(yīng)用，本節(jié)著重闡述其在情感分析以及統(tǒng)計機(jī)器翻譯領(lǐng)域中的應(yīng)用。

5.1 計算語義合成性在情感分析中的應(yīng)用

從大規(guī)模數(shù)據(jù)集中分析用戶情感是一件非常具有挑戰(zhàn)性的工作，但是目前多采用基于“詞袋”模型的方法分析用戶情感，即不考慮詞與詞之間、詞與短語之間以及詞與句子之間的語法語義關(guān)系，判斷出錯的情況不可避免[24]。舉例來說，有這樣兩個句子“白細(xì)胞摧毀了病毒的一次攻擊”和“病毒的一次攻擊摧毀了白細(xì)胞”，顯然第一句話表達(dá)了積極的情感，第二句話表達(dá)了消極的情感。但在采用傳統(tǒng)基于“詞袋”模型的方法，不可避免將這兩句話判定為包含同樣的情感。此外，目前對于用戶情感的描述也存在著一定的局限性，并不能描述用戶復(fù)雜的情感狀態(tài)。

文獻(xiàn)[25]針對上述問題，以深度學(xué)習(xí)方法中的遞歸自動編碼器模型(RAE)為基礎(chǔ)將合成語義應(yīng)用到用戶情感分析中，有效解決了缺乏語法結(jié)構(gòu)以及用戶情感復(fù)雜描述的局限性。針對語料情況，將用戶情感分為五個大類，例如，“understand，sorry， hugs， wow，just wow”，每一大類中與之相對應(yīng)有若干個標(biāo)簽，例如，“excited，cried”等，形成一個標(biāo)簽庫。對于一個待分析的句子，首先獲取單詞語義向量，此時的單詞語義向量可以通過多種方式(如逐點互信息或Word2vec*https://code.google.com/p/word2vec/等)獲取到，再依據(jù)如圖3所示的深度學(xué)習(xí)模型結(jié)構(gòu)，每次選取誤差率最小的組合，兩兩組合依次向上迭代，直至到達(dá)根結(jié)點。其中，誤差率通過式(14)計算得到。

(14)

其中，Erec為重構(gòu)誤差可通過式(13)計算得到。式(13)中的A(x)表示從語句x能夠構(gòu)造樹的全部可能集合，T(y)是返回樹中所有非葉子結(jié)點的索引s的函數(shù)，c1和c2為樹中的兩個葉子結(jié)點，表示待合成的兩個單詞的語義向量表示形式。

此時，我們獲取了目標(biāo)句子或短語帶有語法結(jié)構(gòu)的語義向量表示形式，在此基礎(chǔ)上為所得到的樹中的每個父結(jié)點增加一個平滑層d(p;θ):

d(p;θ)=softmax(Wlabelp)

(15)

(16)

對目標(biāo)函數(shù)采用梯度下降求解，便可求出模型參數(shù)θ。此時，訓(xùn)練一個簡單的邏輯回歸分類器利用該模型參數(shù)θ便可以分析待處理句子的情感。實驗結(jié)果表明，將計算語義合成性應(yīng)用于情感分析中能有效解決基于“詞袋”模型導(dǎo)致誤判的問題，此外還大大簡化了人工處理的成本。

5.2 計算語義合成性在統(tǒng)計機(jī)器翻譯中的應(yīng)用

經(jīng)過50多年的發(fā)展，統(tǒng)計機(jī)器翻譯的方法經(jīng)歷了從詞語層面、淺層語法層面、深層語法層面到半語義層面的進(jìn)步[26]，近年研究人員逐漸把研究的方向轉(zhuǎn)向語義層的研究。在語義層的研究中，計算語義合成性的研究也越來越廣泛。這一節(jié)，我們以文獻(xiàn)[27]將計算語義合成性加入到短語翻譯模型中的工作為例介紹計算語義合成性在統(tǒng)計機(jī)器翻譯領(lǐng)域的應(yīng)用。

其主要的思想是: 首先在源語言端和目標(biāo)語言端分別抽取出短語，然后將源語言和目標(biāo)語言中的短語，通過多層神經(jīng)網(wǎng)絡(luò)模型映射到一個低維的淺層語義空間。于是，對于源語言和目標(biāo)語言的短語，都可以用一個與語言環(huán)境無關(guān)的特征向量來表示它的語義信息，最后通過計算各特征向量之間的相似度獲得源短語對到目標(biāo)短語對的翻譯得分。由于該翻譯得分是這些特征向量之間的平滑函數(shù)，所以語義上的微小改變僅會略微改變翻譯得分的值，確保了翻譯得分能夠保持適當(dāng)?shù)闹?，然后將它作為一個特征加入到訓(xùn)練模型中。

將語義合成性應(yīng)用到統(tǒng)計機(jī)器翻譯中，關(guān)鍵在于把源語言和目標(biāo)語言短語映射到同一個語義空間，然后計算出翻譯得分[28]。假設(shè)從源語言或者目標(biāo)語言中抽取的短語用向量表示為p，則它映射到語義空間中的特征向量y可采用式(17)計算得到。

(17)

其中，W1是從輸入層到隱藏層的映射矩陣，W2是從隱藏層到輸出層的映射矩陣。在語義空間的特征向量基礎(chǔ)上，通過計算源語言短語向量ps與目標(biāo)語言短語向量pt的相似度來表示源語言短語和目標(biāo)語言短語的翻譯得分。它的計算過程如式(18)所示。

score(s,t)≡simθ(ps,pt)=ysTyt

(18)

其中，s和t為源語言和目標(biāo)語言短語，ps和pt分別為源語言語義空間和目標(biāo)語言語義空間下源語言短語和目標(biāo)語言短語語義向量。ys和yt分別為源語言短語和目標(biāo)語言短語在語義空間中得到的特征向量，得到翻譯得分后，將其作為一個參數(shù)加入到傳統(tǒng)的基于線性對數(shù)模型的短語機(jī)器翻譯過程中。英法機(jī)器翻譯上的實驗結(jié)果表明，這種新的模型的BLEU值比傳統(tǒng)的短語翻譯模型提高了0.7～1.0。

目前計算語義合成性在機(jī)器翻譯中的應(yīng)用多采用這種在單語空間計算語義向量再投影的方法，在投影的時候不可避免地會產(chǎn)生語義丟失的現(xiàn)象。Hermann等[29]提出一種多語言模型，將分布式假設(shè)擴(kuò)展到了多語空間，在多語空間計算短語乃至句子的合成語義信息，有效避免了投影時可能出現(xiàn)的語義丟失現(xiàn)象。將通過這種模型獲得的語義向量應(yīng)用于機(jī)器翻譯中，相信定能有效提升翻譯的質(zhì)量。

6 總結(jié)與展望

本文對計算語義合成性的研究方法進(jìn)行了全面的綜述和分析，參考了國內(nèi)外諸多研究人員有關(guān)計算語義合成性研究的文章、方法。首先概要介紹了傳統(tǒng)語言學(xué)方法在計算語義合成性研究中的應(yīng)用，然后對于近年來興起的基于單詞向量表示的分布式方法選取了具有代表性的基于向量混合模型、基于向量矩陣模型以及基于深度學(xué)習(xí)的方法做了詳細(xì)的介紹。同時也介紹了計算語義合成性在情感分析和統(tǒng)計機(jī)器翻譯領(lǐng)域中的應(yīng)用。

從本文對語言學(xué)方法和分布式方法的分析比較中可以看出: 計算語義合成性質(zhì)量的好壞直接影響了其應(yīng)用的質(zhì)量的好壞，而單詞的表示以及單詞之間的合成規(guī)則直接影響了計算語義合成性質(zhì)量的好壞。因此，計算語義合成性研究的重點仍然是尋求更好的單詞向量表示以及更便利、有效的合成規(guī)則。

計算語義合成性研究是一件非常具有潛力和挑戰(zhàn)性的工作，它可以極大地影響與改善自然語言處理的過程。但是即使采取目前最新的分布式方法，計算語義合成性研究仍然沒有取得最優(yōu)的結(jié)果。采用單詞向量表示的分布式方法的前提是分布式假設(shè)是正確的，然后才可以利用上下文信息表示目標(biāo)單詞的語義信息，但是正如文獻(xiàn)[2]所提出的質(zhì)疑，Harris等人提出的分布式假設(shè)是否正確仍然是一個需要商榷的命題。此外，對于介詞、限定詞以及關(guān)系代詞這些功能詞的語義很難有一個穩(wěn)定正確的表示方法。在單詞向量表示的基礎(chǔ)上，無論是線性的或者非線性的合成運算方法，都沒有綜合利用語法和語義規(guī)則。而這些問題都需要研究人員進(jìn)一步挖掘與探究。

[1] 馮志偉. 自然語言處理的歷史與現(xiàn)狀[J]. 中國外語，2008，01:14-22.

[2] Kartsaklis D. Compositional Operators in Distributed Semantics. Springer Science Reviews[OL]. DOI: 10.1007/s40362-014-0017-z. 2014. www.cs.ox.ac.uk/files/6248/kartsaklis-springer.pdf

[3] Cornford FM,ed. Plato’s theory of knowledge: The theaetetus and the sophist[M]. Courier Dover Publications,2003.

[4] Frege G. ‘über Sinn und Bedeutung’,in P Geach and M Black,eds.Translations from the Philosophical Writings of Gottlob[M]. Oxford: Blackwell,1892: 56-78.

[5] Partee B. Lexical semantics and compositionality[J]. An invitation to cognitive science: Language. 1995. 1: 311-360.

[6] Clark S,Pulman S. Combining Symbolic and Distributional Models of Meaning[C]//Proceedings of the AAAI Spring Symposium on Quantum Interaction,2007: 52-55.

[7] Blacoe W,Lapata M. A comparison of vector-based representations for semantic composition[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics,2012: 546-556.

[8] Montague R. English as a formal language[J]. Linguaggi nella societae nella tecnica. 1970: 189-224.

[9] Moggi E. Computational lambda-calculus and monads[M]. University of Edinburgh,Department of Computer Science,Laboratory for Foundations of Computer Science,1988.

[10] Guevara E. Computing semantic compositionality in distributional semantics[C]//Proceedings of the 9th International Conference on Computational Semantics.Association for Computational Linguistics,2011: 135-144.

[11] Bach E. An extension of classical transformational grammar[C]//Proceedings of the 1976 Conference at Michigan State University,1976: 183-224.

[12] Church A. The calculi of lambda-conversion[M]. Princeton University Press,1985.

[13] 石靜,吳云芳,邱立坤等. 基于大規(guī)模語料庫的漢語詞義相似度計算方法[J]. 中文信息學(xué)報，2013，27(1)1-6，80.

[14] 王鑫,孫薇薇,穗志方.基于淺層句法分析的中文語義角色標(biāo)注研究[J]. 中文信息學(xué)報，2011，(25)01: 116-122.

[15] Mitchell J,Lapata M. Vector-based Models of Semantic Composition[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics,2008: 236-244.

[16] Harris Z S. Mathematical structures of language[J]. Wiley. New York. 1968.

[17] Coecke B,Sadrzadeh M,Clark S.Mathematical Foundations for Distributed Compositional Model of Meaning[J]. Lambek Festschrift. Linguistic Analysis. 2010，36: 345-384.

[18] Baroni M,Zamparelli R. Nouns are vectors,adjectives are matrices: Representing adjective-noun constructions in semantic space[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2010: 1183-1193.

[19] Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006，313(5786): 504-507.

[20] Socher R,Lin C C,Manning C,et al. Parsing natural scenes and natural language with recursive neural networks[C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11),2011，129-136.

[21] Socher R,Huval B,Manning C D,et al. Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics,2012，1201-1211.

[22] Collobert R,Weston J,Bottou L,et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research,2011，12: 2493-2537.

[23] Mitchell J,Lapata M. Composition in distributional models of semantics[J]. Cognitive science,2010，34(8): 1388-1429.

[24] Pang B,Lee L,Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics,2002: 79-86.

[25] Socher R,Pennington J,Huang E H,et al. Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2011: 151-161.

[26] 劉群. 統(tǒng)計機(jī)器翻譯綜述[J]. 中文信息學(xué)報,2003，17(4): 1-12.

[27] Gao J,He X,Yih W,et al. Learning Continuous Phrase Representations for Translation Modeling[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics. Baltimore,Maryland. 2014: 699-709.

[28] He X,Deng L. Maximum expected bleu training of phrase and lexicon translation model[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics,2012: 292-301.

[29] Hermann K M,Blunsom P. Multilingual Models for Compositional Distributed Semantics[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,2014: 58-68.

A Survey of Computational Semantic Compositionality

WANG Chaochao,XIONG Deyi

(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)

Despite of the rapid development of natural language processing,studies at the syntax level can’t fully satisfy what we need. Semantics is becoming a hot research topic in the NLP community. As the key part of semantics,computational semantic compositionality receives more attention. In this paper,we classify the approaches towards computational semantic compositionality into two categories: linguistic methods and distributional methods. We present some typical studies for each category,including the recent deep learning approaches. After an introduction to these two approaches,we make a comparison between linguistic methods and distributional methods. Then we introduce several applications of computational semantic compositionality on sentiment analysis and machine translation. Finally,we provide some suggestions on future directions of computational semantic compositionality.

semantic compositionality; natural language processing; distributional method; deep learning

王超超(1989—)，碩士研究生，主要研究領(lǐng)域為機(jī)器翻譯。E?mail：chaochaowang@foxmail．com熊德意(1979—)，教授，主要研究領(lǐng)域為自然語言處理，機(jī)器翻譯。E?mail：dyxiong@suda．edu．com

2014-6-9 定稿日期: 2015-12-8

江蘇省自然科學(xué)基金青年基金(BK20140355)

1003-0077(2016)03-0001-08

TP391

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

計算語義合成性綜述

1 引言

2 語言學(xué)方法

3 分布式方法

3.3 基于深度學(xué)習(xí)的語義合成性

4 語言學(xué)方法與分布式方法比較

5 計算語義合成性的應(yīng)用

6 總結(jié)與展望