亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

向量語義學(xué)分析The Analysis of Vector Semantics

2021-07-28 07:34:20陳佳琳CHENJia-lin

速讀·下旬 2021年1期

陳佳琳 CHEN Jia-lin

◆摘? 要：向量語義學(xué)通過分析單詞在文本中的分布來表征詞的意義，這種語義表征方法被用于自然語言處理的技術(shù)之中。通過考察單詞出現(xiàn)的語境來表征詞的語義，而不再是傳統(tǒng)的語言學(xué)或邏輯學(xué)視角刻畫詞功能意義或模型論語義。

◆Abstract： Vector semantics represents the meaning of words by analyzing the distribution of words in the text， which is used in natural language processing technology. It is no longer the traditional linguistic or logical perspective to describe the functional meaning or model semantics of words.

◆關(guān)鍵詞：現(xiàn)代語義學(xué);向量語義學(xué);自然語言處理

◆Key word：Modern semantics; vector semantics; natural language processin

隨著人工智能日益發(fā)展，語義學(xué)的研究越來越受到重視。從邏輯的視角來看，語言分為語音、語形、語義和語用，其中，語音、語形為載體，語義和語用關(guān)涉內(nèi)涵。人們交流的時候，既要說清楚自己想表達(dá)的意思，同時也要理解他人想表達(dá)的意思，所以語義是交流的核心，這也是現(xiàn)在語義學(xué)研究價值所在。

一、語義學(xué)及其分類

語義學(xué)（Semantics）是一個涉及語言學(xué)、心理學(xué)、邏輯學(xué)以及計算機(jī)科學(xué)等諸多領(lǐng)域的學(xué)科。語義學(xué)主要研究語言的意義，單詞、短語、句子和篇章都是屬于自然語言的語言單位。研究語義學(xué)可以發(fā)現(xiàn)語言表達(dá)的規(guī)律，甚至發(fā)現(xiàn)不同語言的語義機(jī)制的共同點和不同點。

語義學(xué)這個概念細(xì)究起來，會有不同的含義。從研究范圍來說，語義學(xué)可以分為：語言學(xué)的語義學(xué)、邏輯學(xué)的語義學(xué)、普通話的語義學(xué)以及哲學(xué)的語義學(xué)，這四種是廣義的語義學(xué)。而平時我們所說的語義學(xué)僅僅是指狹義的語義學(xué)，也就是語言學(xué)的語義學(xué)。主要是研究各種自然語言單位的意義及其相互關(guān)系，語義的共時變化和歷時演變。這種狹義的語義學(xué)又可以分為：詞匯語義學(xué)、句法語義學(xué)和語義語用學(xué)。除此之外，依據(jù)不同的研究興趣，還有形式語義學(xué)、解釋語義學(xué)、生成語義學(xué)、結(jié)構(gòu)語義學(xué)、認(rèn)知語義學(xué)等不同的語義學(xué)。

二、現(xiàn)代語義學(xué)重要性

語義問題非常復(fù)雜，傳統(tǒng)語義學(xué)的發(fā)展一直相對緩慢。傳統(tǒng)語義學(xué)的研究有三個缺陷，第一，傳統(tǒng)語義學(xué)只研究詞義，研究形式比較單一。第二，傳統(tǒng)語義學(xué)的研究只是靜態(tài)的研究語言中的語義，缺少在動態(tài)語境的研究。第三，傳統(tǒng)語義學(xué)由于詞義很多，無法形成一個完整的詞義系統(tǒng)。這些缺陷使得傳統(tǒng)語義學(xué)的研究受到阻礙，無法深入到詞的內(nèi)部進(jìn)行研究。

現(xiàn)代語義學(xué)的研究深入到了詞的內(nèi)部，把研究范圍從單詞、短語擴(kuò)大到了句子、篇章。使得語義研究的深度和廣度的大大的加強(qiáng)。

現(xiàn)代語義學(xué)研究一方面深入到了詞的內(nèi)部，重視發(fā)展內(nèi)部規(guī)律，把研究范圍從單詞、短語擴(kuò)大到了句子、篇章。另一方面，隨著社會的發(fā)展，對語義學(xué)的研究越來越注重在現(xiàn)實生活中的應(yīng)用。隨著機(jī)器翻譯、人工智能以及通訊技術(shù)等的迅猛發(fā)展，語義學(xué)越來越受到重視。

三、向量語義學(xué)及簡單模型

在眾多的現(xiàn)代語義學(xué)體系中，向量語義學(xué)是非常具有競爭優(yōu)勢的一類。在傳統(tǒng)語義學(xué)中，單詞的意義是另一串字符串，或者是詞匯表中的對應(yīng)的某個索引。這些處理方式有個共同之處，即忽略了單詞的相似性、單詞的關(guān)聯(lián)性等。比如在下面的例子中：

A bottle of tesguino is on the table.

Everybody likes tesguino.

Tesguino makes you drunk.

We make tesguino out of corn

雖然讀者可能不理解斜體的“tesguino”的意義，但我們可以通過該單詞出現(xiàn)的語境來識別它的涵義，這便是向量語義學(xué)的非形式解讀。

向量語義學(xué)的哲學(xué)起源，至少可以追溯到20世紀(jì)50年代的語言學(xué)和哲學(xué)著作。比如，哲學(xué)家路德維希·維特根斯坦（Ludwig Wittgenstein）認(rèn)為，為每個單詞都給出一個全面的定義是做不到的，并提出“意義即使用”的口號。[1]簡單的來說，人們不應(yīng)該使用某種邏輯語言來解釋每一個單詞，而是應(yīng)該去考察使用這個單詞的語境，即人們在實際生活中，在說話和理解時如何使用這個單詞的表示自己的意思的。

語言學(xué)家Joos（1950）、Harris（1954）和Firth（1957）為了實現(xiàn)維特根斯坦的意義理論提出了一個想法：根據(jù)語言使用的環(huán)境或分布來解釋一個單詞。一個單詞的分布是由它發(fā)生語境的集合、相鄰的單詞或語法環(huán)境決定的，這種想法被稱之為“分布假說”。支撐這種理論的語言學(xué)證據(jù)有：同義詞（如“oculist”和“eye-doctor”）往往出現(xiàn)在相同的環(huán)境中。也就是說，出現(xiàn)在非常相似分布中的兩個單詞往往具有相同的含義。又如，形近詞“eye”和“examined”這兩個單詞的涵義差別“大致相當(dāng)于它們在環(huán)境中的差異”

向量語義學(xué)將一個單詞表示為某個多維語義空間中的一個點。表示單詞的向量通常稱為“嵌入”，這是因為單詞總是被嵌入到一個特定的向量空間中。向量語義學(xué)結(jié)合了分布主義思想和向量思想，將一個單詞的意義看作是一個向量，即N維空間中的一個點。盡管向量語義學(xué)有很多種版本，但是每種版本都基于單詞的共現(xiàn)矩陣（co-occurrence matrix）。下面簡單介紹自然語言處理中幾種常用的表征方式。

（一）項-文檔矩陣（term-document matrix）

在項-文檔矩陣中，每一個行表示詞匯表中的一個單詞，每一列表示某個具體的文檔。兩個相似的文檔往往具有相似的單詞，如果兩個文檔具有相似的單詞，那么它們的列向量也可能相似。一個真正的項-文檔矩陣通常不會只有幾行幾列，由于詞匯表的大小至少有數(shù)萬個，文檔的數(shù)量可能也非常大。

（二）單詞-單詞矩陣（word-word matrix）

除了項-文檔矩陣外，還存在一種單詞-單詞矩陣，不同于項-文檔矩陣的是，其中的列是單詞，而不再是文檔，所以項-文檔矩陣中的列由單詞構(gòu)成，可以表示為|V|×|V|。每個值表示某語料庫中某一上下文中行詞和列詞共同出現(xiàn)的次數(shù)。

（三）余弦（cosine）方法

在自然語言處理中使用的向量的相似度的余弦方法基于線性代數(shù)的點積（dot product）算子。如果一個向量越長，點積就會越大，那么每個維度的值也就越大。對于頻繁出現(xiàn)的單詞，原始點積會更高。為了得到兩個單詞的相似性，不考慮頻率，有標(biāo)準(zhǔn)化點積的概念，即將點積除以兩個向量的長度。通過計算向量的余弦，可以比較單詞的相似性。

（四）TF-IDF模型

隨著向量語義學(xué)發(fā)展，人們發(fā)現(xiàn)，簡單的頻率表征并不是計算單詞之間關(guān)聯(lián)的最佳方法，于是提出了TF-IDF模型。其主要思想是：如果某個單詞在一篇文章中出現(xiàn)的頻率高，在其他的文章中出現(xiàn)的頻率少，那么就可以認(rèn)為這個單詞具有很好的區(qū)分能力，可以用這個單詞用來分類。在這個模型中，單詞的含義是由鄰近單詞的簡單函數(shù)定義的。由于有大多數(shù)的單詞根本不會出現(xiàn)在其他單詞的上下文中，這種方法會產(chǎn)生長的稀疏向量，即大部分包含0。

TF-IDF模型實際是TF*IDF。其中TF表示文檔中單詞的頻率。通常我們希望原始頻率低一點，因為一個單詞在文檔總出現(xiàn)200次并不會使得該單詞與文檔相關(guān)的可能性增加200次。所以我們使用頻率權(quán)重定義：

在文檔中出現(xiàn)10次的項將有TF=2，在文檔中出現(xiàn)100次TF=3， 1000次TF=4，以此類推。IDF表示逆向文檔頻率，即一個術(shù)語出現(xiàn)在越少數(shù)的文檔中，這個權(quán)重就越高。但是實際上，如果一個單詞在一個類的文檔中頻繁出現(xiàn)，則說明該詞條能夠很好代表這個類的文本的特征，這樣的詞條應(yīng)該給它們賦予較高的權(quán)重，并選作該類文本的特征詞以區(qū)別于其它類文檔。

四、總結(jié)

向量語義學(xué)的優(yōu)點很多，首先向量語義學(xué)提供了一種細(xì)粒度的意義模型，可以實現(xiàn)單詞的相似性和短語的相似性的計算。其次，向量語義學(xué)更具有實用性，有助于人工智能程序從文本中自動學(xué)習(xí)，而無需添加任何復(fù)雜的標(biāo)簽或監(jiān)督。鑒于這些優(yōu)點，向量語義學(xué)模型是現(xiàn)在自然語言處理中表征單詞意義的標(biāo)準(zhǔn)方法。

向量語義學(xué)可用于查找單詞釋義、跟蹤單詞意義的變化或自動發(fā)現(xiàn)不同語料庫中單詞的含義。此外，還可通過計算余弦來估計兩個文檔的相似性。雖然向量語義學(xué)表征單詞的意義方面具備優(yōu)勢，但其在表征句子的意義方面稍微缺乏符合直覺的解釋。

參考文獻(xiàn)

[1]Wittgenstein，L.Philosophical Investigations. （Translated by Anscombe，G.E.M.）.New Jersey：Wiley-Blackwell，1953：43.

[2]Harris，Z.S.Distributional structure.Word，1954（10）： 146-162.

[3]Osgood，C.E.Suci，G.J. and Tannenbaum， P.H.The Measurement of Meaning. University of Illinois Press.1957.

[4]Luhn， H.P.A statistical approach to the mechanized encoding and searching of literary information.IBM Journal of Research and Development，1957，1（04）：309–317.

[5]Sparck Jones， K.A statistical interpretation of term specificity and its application in retrieval.Journal of Documentation，1972，28（01）：11–21.

作者簡介

陳佳琳（1995—），女，遼寧沈陽人，湘潭大學(xué)碧泉書院哲學(xué)與歷史文化學(xué)院碩士研究生。研究方向：邏輯學(xué)。