亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        詞匯分布語義的語言學(xué)基礎(chǔ)探微*

        2019-12-11 09:32:00吳宗大
        浙江社會(huì)科學(xué) 2019年12期
        關(guān)鍵詞:句段語料語言學(xué)

        □潘 俊 吳宗大

        內(nèi)容提要 詞匯分布表示是當(dāng)前人工智能領(lǐng)域語義表示的主要方法。通過對(duì)大規(guī)模語料中詞匯分布規(guī)律的學(xué)習(xí),可以得到以數(shù)學(xué)向量形式表示的詞匯,并具有語義可計(jì)算和可推導(dǎo)的重要性質(zhì)。詞匯分布語義表示的語言哲學(xué)基礎(chǔ)是維特根斯坦的詞義使用論,主張?jiān)~的意義就在于使用。維特根斯坦和索緒爾的語言觀有著某種聯(lián)系,索緒爾認(rèn)為,語言中一切要素都按照句段關(guān)系和聯(lián)想關(guān)系運(yùn)行,詞匯分布語義模型的輸入上下文事實(shí)上可以歸為這兩類關(guān)系。布龍菲爾德的結(jié)構(gòu)語言學(xué)深受索緒爾的影響,最終發(fā)展成為海里斯的分布方法論,構(gòu)成了詞匯分布語義的語言學(xué)基礎(chǔ)。當(dāng)前以神經(jīng)語言模型為代表的詞匯分布語義,根植于詞義使用論學(xué)說,并以描寫語言學(xué)為理論支撐,其本質(zhì)是對(duì)語料中詞匯使用模式和偏好的反映,因此可以客觀折射社會(huì)文化生活的某些特征,同時(shí)也不可避免地存在其固有的局限性。

        一、引言

        自然語言處理是人工智能領(lǐng)域極其重要也極具挑戰(zhàn)的研究方向,屬于計(jì)算機(jī)科學(xué)與語言學(xué)的交叉學(xué)科。它將抽象的人類語言轉(zhuǎn)換成適合計(jì)算機(jī)處理的形式,從而建立語言、知識(shí)與客觀世界之間的可計(jì)算關(guān)系。自然語言處理的核心,是讓機(jī)器具備理解各種語言形式(詞匯、短語、句子、篇章等)內(nèi)在含義的能力。詞匯是自然語言的基本單位,詞匯的語義表示因此也成為自然語言理解的基本問題之一。傳統(tǒng)上,人們采用人工構(gòu)建語義詞典和語義知識(shí)庫的方式來表達(dá)詞匯語義①。但人工標(biāo)注的方式成本高昂,覆蓋面亦有限,難以獲得大規(guī)模高質(zhì)量的標(biāo)注數(shù)據(jù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展和文本數(shù)據(jù)的爆炸式增長(zhǎng),利用機(jī)器學(xué)習(xí)算法在大規(guī)模語料上對(duì)詞匯表示進(jìn)行抽象和學(xué)習(xí),成為當(dāng)前詞匯語義表示的主流方法。這種表示方法又稱分布語義,它通過對(duì)語料的學(xué)習(xí),將符號(hào)表示的詞匯轉(zhuǎn)化為數(shù)學(xué)表示的向量,使得詞匯具有語義可計(jì)算的能力,已經(jīng)在智能搜索、語音識(shí)別、機(jī)器翻譯、詩歌創(chuàng)作、古文斷句、信息過濾、意圖理解等領(lǐng)域得到了廣泛使用②。

        盡管詞匯分布語義在應(yīng)用上取得了很大的成功,然而也應(yīng)當(dāng)看到,對(duì)其背后的語言學(xué)機(jī)理,我們還缺乏全面的認(rèn)識(shí)。我們要問,這種通過對(duì)語料的學(xué)習(xí)而自動(dòng)獲得的分布語義,本質(zhì)上是一種什么樣的語義?它能否涵蓋詞匯的完整意義?這種語義表示的潛力和局限又是什么?我們認(rèn)為,要回答這些問題,需要結(jié)合相關(guān)的語言學(xué)理論來深入思考。

        本文試圖從語言學(xué)學(xué)說史的角度審視詞匯分布語義的理論基礎(chǔ),并以在海量《人民日?qǐng)?bào)》語料庫上訓(xùn)練得到的詞匯分布語義作為實(shí)證分析的依據(jù)③,以厘清詞匯分布語義在自然語言處理領(lǐng)域的潛力和邊界,并為自然語言理解模型的構(gòu)建和應(yīng)用提供新的思路。

        二、意義即使用:詞匯分布語義的語言哲學(xué)基礎(chǔ)

        詞匯的意義理論是語言哲學(xué)的兩個(gè)基本問題之一④。什么是詞義?對(duì)這個(gè)問題的討論,最早可追溯至古希臘時(shí)期對(duì)“詞”與“物”的關(guān)系之辯,即名實(shí)之爭(zhēng)?!斑壐魉梗╨ogs)”學(xué)說的提出者,古希臘哲學(xué)家赫拉克里特(Heraclitus)主張“本質(zhì)說”,認(rèn)為名稱與它所代表的事物之間的聯(lián)系是不可分割的,名稱包含了事物的本質(zhì)⑤。與此相反,德謨克里特(Democletus)主張“約定說”,認(rèn)為名稱與事物之間的聯(lián)系并非由事物的本質(zhì)決定,而是約定俗成的⑥。后來柏拉圖(Plato)在他的《對(duì)話錄》中提出了“語詞是命名(naming)”的折中觀點(diǎn),認(rèn)為事物的意義在于名稱和事物之間的自然聯(lián)系,但這種內(nèi)在聯(lián)系會(huì)隨著時(shí)間推移而減弱。柏拉圖的學(xué)生亞里斯多德則堅(jiān)決主張名實(shí)分離,認(rèn)為名稱不是自然賦予的,而是約定俗成的具有意義的聲音,在成為一種符號(hào)時(shí)才成為名稱⑦。公元二世紀(jì)語言學(xué)的亞歷山大里亞學(xué)派(the Alexandrians)也傳承了這一觀點(diǎn)⑧。

        古希臘哲學(xué)家關(guān)于名實(shí)關(guān)系的爭(zhēng)辯,對(duì)中世紀(jì)以后的語言哲學(xué)學(xué)說,產(chǎn)生了極其深遠(yuǎn)的影響。意義的指稱論(referential theory of meaning)即秉持“約定說”的名實(shí)分離觀點(diǎn),認(rèn)為詞的意義就是詞所指的對(duì)象。近代英國(guó)哲學(xué)家、邏輯學(xué)家密爾(J.S.Mill)把名稱分為專名和通名,其中通名既有外延又有內(nèi)涵,外延表示所指稱的事物,而內(nèi)涵表示所指事物的特性,即意義⑨。德國(guó)哲學(xué)家弗雷格(G.Frege)進(jìn)一步發(fā)展了指稱論,在1892年發(fā)表的《論意義和所指》一文中,弗雷格對(duì)符號(hào)的意義和所指(一譯“意謂”)做了明確區(qū)分。他以望遠(yuǎn)鏡觀察月亮來比喻:月亮是所指,望遠(yuǎn)鏡物鏡中的影像是意義,視網(wǎng)膜上的圖像是意象,意義介于所指和意象之間,既不是所指對(duì)象本身,也不像意象那樣主觀,而是一種客觀的存在⑩。指稱論的另一位代表人物羅素(B.A.W.Russell)則提出,應(yīng)將語詞分為專名和摹狀詞,專名的意義就是所指稱的對(duì)象,摹狀詞的意義由所組成的語詞的意義確定?,羅素的意義理論被稱為“邏輯指稱論”,并深刻影響了他的學(xué)生維特根斯坦,早期維特根斯坦就認(rèn)為,名稱和對(duì)象之間存在直接的對(duì)應(yīng)關(guān)系,名稱所指的對(duì)象就是名稱的意義?。

        由上可知,指稱論者雖然在具體觀點(diǎn)上有所差異,但都主張語言是對(duì)世界的反映,詞匯的意義在于所指稱的世界中的事物。但是,指稱論是以名稱為范例來看待詞匯的,而詞匯并不都是名稱,許多詞匯的意義,要根據(jù)上下文甚至社會(huì)語境才能確定。后期維特根斯坦就否定了自己早期的指稱論觀點(diǎn),在后期著作《哲學(xué)研究》中,他提出“意義即用法”的觀點(diǎn),他說:“一個(gè)字詞的意義是它在語言中的用法?!?例如,作為路標(biāo)的箭頭符號(hào)之所以能夠指路,是因?yàn)槿藗兪褂盟?,按照它的指向行走,正是使用賦予箭頭符號(hào)以意義。根據(jù)維特根斯坦的觀點(diǎn),詞匯的意義受到語言使用規(guī)則的制約,因此必須研究語言游戲的規(guī)則,這種思路被稱作意義的使用論(use theory of meaning),并直接促使人們對(duì)詞的用法進(jìn)行經(jīng)驗(yàn)性研究。

        意義的使用論被多個(gè)語言學(xué)派所吸收和采納,但“使用”這一概念過于空泛,不少語言學(xué)家給出了更為明確的關(guān)于“詞義”的闡述。語言學(xué)倫敦學(xué)派的創(chuàng)始人弗斯(J.R.Firth)說:“詞匯的意義取決于搭配”,認(rèn)為意義存在于詞匯出現(xiàn)的上下文之中,上下文可以幫助理解詞義。?英國(guó)語言學(xué)家克魯斯認(rèn)為:“一個(gè)詞項(xiàng)在各種語境中遇到的全部正常關(guān)系稱為它的語境關(guān)系(contextual relations),…,詞的意義是由它的語境關(guān)系構(gòu)成的。”?

        用詞的上下文信息來表達(dá)詞的意義,與傳統(tǒng)語義學(xué)和喬姆斯基(A.N.Chomsky)的生成語法理論形成了鮮明對(duì)比,但在實(shí)踐中卻有很強(qiáng)的可操作性。我們以漢字“塤”為例,假設(shè)一個(gè)人并不清楚這個(gè)字的含義,但告訴他這個(gè)字在如下的文本中出現(xiàn)?:

        (1)正是周敏在城墻頭上吹動(dòng)了塤,聲音沉緩悠長(zhǎng),嗚嗚如夜風(fēng)臨窗。(賈平凹《廢都》)

        (2)它的外形有橢圓形、圓形、橄欖形不等,大多由陶土燒制而成,所以又叫陶塤。(新華社新聞文本)

        (3)若不會(huì)吹笛,塤和簫都成,曲風(fēng)應(yīng)是悠揚(yáng)輕遠(yuǎn)的。(劇本《武林外傳》)

        那么,根據(jù)“塤”這個(gè)詞在上下文中的分布,不難推斷出它的意義:“一種陶制的吹奏樂器”。由此可見,如果給定足夠多的上下文,就能夠利用分布統(tǒng)計(jì)方法來刻畫每個(gè)詞的含義。詞匯分布語義各種模型的基本思想,正是通過機(jī)器學(xué)習(xí)算法來學(xué)習(xí)詞匯在大規(guī)模文本語料中的分布模式,從而獲得詞匯的語義表示。

        在各具特色的詞匯分布語義學(xué)習(xí)模型中,Word2Vec 神經(jīng)網(wǎng)絡(luò)模型是較有影響力的一種?。本文采用Word2Vec的Skip-Gram 算法對(duì)《人民日?qǐng)?bào)》語料進(jìn)行訓(xùn)練,然后將得到的詞向量降到3 維(原參數(shù)設(shè)為256 維),再檢索“塤”的語義近鄰分布,結(jié)果如下圖1所示。

        圖1 “塤”的三維語義近鄰

        由圖1 中詞匯的空間分布,可以得到更多關(guān)于“塤”的語義知識(shí),例如,由“編鐘”、“篪”、“古琴”、“青銅器”等近鄰詞可以推斷,“塤”應(yīng)是一種遠(yuǎn)古樂器??梢姡~匯分布語義實(shí)質(zhì)上是通過詞匯在空間中的位置來表達(dá)語義的。自然語言本質(zhì)上是符號(hào)化的,而在分布表示框架下,符號(hào)表示的詞匯最終被轉(zhuǎn)換成了數(shù)學(xué)表示的向量,這種轉(zhuǎn)換具有非常重要的意義,因?yàn)樵谵D(zhuǎn)為數(shù)學(xué)向量之后,詞匯語義變得可計(jì)算甚至可推理了。例如,通過向量計(jì)算,可以發(fā)現(xiàn)“塤”與“簫”的距離要明顯小于它與“架子鼓”的距離,也就是說,“塤”在語義上要更接近“簫”。同時(shí),這種語義距離還具有可推理的性質(zhì),例如,通過計(jì)算,我們可以得到類似于“吹奏樂器-塤=打擊樂器-架子鼓”這樣的語義推理結(jié)果。

        那么,通過空間距離來表達(dá)詞匯語義,是否符合人類對(duì)概念的認(rèn)知規(guī)律呢?我們可以從認(rèn)知語言學(xué)的角度看待這個(gè)問題。溫格樂(F.Ungereer)認(rèn)為,概念結(jié)構(gòu)是體驗(yàn)性的(embodied,一譯“具身”),語義的形成,很大程度上源于我們的身體體驗(yàn)?。認(rèn)知語言學(xué)的代表人物萊考夫(G.Lakoff)指出,隱喻是人類語言的普遍現(xiàn)象,是人類認(rèn)知和思維的本質(zhì)?。格雷迪(E.J.Grady)的基本隱喻理論認(rèn)為,兒童在概念認(rèn)知的早期,能學(xué)會(huì)數(shù)百個(gè)可被辨識(shí)的基本隱喻,基本隱喻又進(jìn)一步構(gòu)成了復(fù)雜隱喻?。萊考夫總結(jié)分析了約50條基本隱喻,其中非常重要的一條就是“相似是近(similarity is closeness)”,該隱喻是人類對(duì)挨近的相似對(duì)象進(jìn)行觀察而獲得的基本經(jīng)驗(yàn),表明人類的思維會(huì)將實(shí)體概念映射到空間,而相似的概念在空間中的距離也相近。萊考夫認(rèn)為,人類正是通過“相似是近”這一基本隱喻來進(jìn)行概念層面的抽象思維。由此可見,用詞匯在向量空間中的位置來表示詞匯,用詞匯間的空間距離來表示詞匯的語義相似度,可以從認(rèn)知語義學(xué)中找到理論依據(jù)。

        三、句段與聯(lián)想:詞匯分布語義的兩類上下文

        詞匯分布語義通過空間距離表達(dá)語義相似程度,而這種距離正是通過對(duì)詞匯在語料中的“使用”模式進(jìn)行統(tǒng)計(jì),由學(xué)習(xí)模型自動(dòng)習(xí)得的。因此,有必要審視詞匯的“使用”指的是什么?以及對(duì)“使用”的不同定義得到的詞匯語義有何區(qū)別?

        瑞士語言學(xué)家索緒爾(F.D.Saussure)是現(xiàn)代語言學(xué)的奠基者。索緒爾認(rèn)為,語言是一套具有價(jià)值的符號(hào)系統(tǒng),符號(hào)的價(jià)值在于對(duì)不同功能的區(qū)分,而這種區(qū)分是不能脫離系統(tǒng)而存在的。按照索緒爾的觀點(diǎn),作為語言符號(hào)系統(tǒng)的一部分,詞匯不僅具有意義,而且具有價(jià)值,詞匯的價(jià)值由它與其他詞的關(guān)系決定,索緒爾將這種關(guān)系分為兩類:句段關(guān)系和聯(lián)想關(guān)系。句段關(guān)系是指話語中各個(gè)要素挨序排列結(jié)成的線條性關(guān)系,其特征是有序的,在現(xiàn)場(chǎng)的(法語in praesentia),例如,語詞中構(gòu)字成詞,連詞成句,集句成段等都屬于句段關(guān)系;聯(lián)想關(guān)系的特征是無序的,非現(xiàn)場(chǎng)的(法語in absentia),可替換的。下面以一個(gè)簡(jiǎn)單例子來說明句段關(guān)系和聯(lián)想關(guān)系,如下圖2所示。

        圖2 句段和聯(lián)想關(guān)系示例

        在這個(gè)例子中,“李白”和“詩人”屬于句段關(guān)系,“李白”和“杜甫”則屬于聯(lián)想關(guān)系。索緒爾指出,整個(gè)語言機(jī)構(gòu)都無外乎對(duì)這兩種關(guān)系的運(yùn)用。從這個(gè)角度來看,詞匯分布語義模型對(duì)語義的學(xué)習(xí),最終可以歸結(jié)為對(duì)這兩種關(guān)系的學(xué)習(xí)。

        句段關(guān)系是詞匯的橫向組合,通過對(duì)固定的語言單元內(nèi)(如句子、段落、篇章)詞匯的共現(xiàn)關(guān)系(co-occurrence)的建模,可以刻畫詞匯的分布語義。例如,我們統(tǒng)計(jì)詞匯在上述3個(gè)句子中的共現(xiàn)次數(shù),如下表1所示。不難看出,“李白”和“詩人”的共現(xiàn)頻率最高,因此語義上更為接近。

        表1 對(duì)句段關(guān)系的詞匯共現(xiàn)建模

        具有聯(lián)想關(guān)系的詞匯不在同一現(xiàn)場(chǎng)共現(xiàn),但具有相似的上下文語境,且一般能夠互相替換。例如,我們依據(jù)上述語料可以構(gòu)建一個(gè)詞詞共現(xiàn)矩陣,如下表2所示??梢钥闯觯袄畎住焙汀岸鸥Α彪m然不在同一個(gè)句子中出現(xiàn),但擁有相似的上下文(即“唐代、詩人”),因此語義相似度較高。

        表2 對(duì)聯(lián)想關(guān)系的詞匯共現(xiàn)建模

        當(dāng)然,上述例子僅是一個(gè)簡(jiǎn)單示例,但如果依據(jù)海量的語料來構(gòu)建詞匯的共現(xiàn)矩陣,無疑可以表達(dá)更為豐富全面的語義。這個(gè)共現(xiàn)矩陣的規(guī)模通常會(huì)很大,潛語義分析、非負(fù)矩陣分解、典型相關(guān)分析等自然語言處理領(lǐng)域的分布語義技術(shù),通過不同的途徑對(duì)共現(xiàn)矩陣進(jìn)行降維,從而得到詞匯的潛在分布語義。但這些方法對(duì)詞匯上下文的使用,仍可以歸結(jié)到索緒爾關(guān)于句段關(guān)系和聯(lián)想關(guān)系的論述。

        由此可見,詞匯在語料中的“使用”,最終可以用索緒爾的句段關(guān)系和聯(lián)想關(guān)系來概括,那么這兩類關(guān)系得到的詞匯語義又有何不同?我們?cè)凇度嗣袢請(qǐng)?bào)》語料上的實(shí)證結(jié)果表明,句段關(guān)系得到的詞匯語義,更偏向于語法搭配的相似性,較易得到主題相關(guān)性的詞匯語義(例如“杭州”與“西湖”,“李白”與“詩人”等);聯(lián)想關(guān)系得到的詞匯語義,更偏向于功能相似性的詞匯語義(例如“杭州”與“蘇州”,“李白”與“杜甫”等)。

        四、描寫語言學(xué):詞匯分布語義的理論依據(jù)

        布龍菲爾德(L.Bloomfield)的結(jié)構(gòu)主義語言學(xué)是對(duì)索緒爾語言觀的繼承和發(fā)展,其1933年出版的代表作《語言論》,奠定了描寫語言學(xué)的理論基礎(chǔ),標(biāo)志著語言學(xué)一個(gè)新時(shí)期的誕生。作為結(jié)構(gòu)語言學(xué)的一個(gè)重要流派,描寫語言學(xué)建立了一整套描寫語言的嚴(yán)格技術(shù),包括替換分析、對(duì)比分析、分布分析、直接成分分析等語言分析方法。布龍菲爾德之后,在海里斯(Z.S.Harris)等人的努力下,美國(guó)描寫語言學(xué)呈現(xiàn)出精密的分析手續(xù)和高度的形式化,其中分布分析技術(shù)成為最重要的方法論。在《結(jié)構(gòu)語言學(xué)》中,海里斯給出了分布的定義:“一個(gè)語言成分(element)的分布就是它所出現(xiàn)的全部環(huán)境(environments)的總和,也就是這個(gè)成分的所有的(不同的)位置(positions)或出現(xiàn)的場(chǎng)合(occurrences)的總和,這個(gè)成分出現(xiàn)的這些位置是和其它成分的出現(xiàn)有關(guān)系的?!焙@锼拐J(rèn)為,分布是語言結(jié)構(gòu)分析的主要依據(jù),分布可以確定語言的成分以及各個(gè)成分之間的關(guān)系。他又認(rèn)為依據(jù)分布能夠得到意義,分布的不同,也就是意義上的不同。海里斯的“分布區(qū)別意義”的思想后來不斷被其他學(xué)者的實(shí)驗(yàn)所證實(shí),并成為詞匯分布語義的理論基礎(chǔ)。基于“相似詞的上下文也相似”的分布假設(shè),研究者提出了各種詞匯分布語義學(xué)習(xí)模型。除了詞匯的上下文外,還可以通過其他語言要素的分布來學(xué)習(xí)詞匯語義,這些語言要素包括詞匯的形態(tài)學(xué)特征,如前后綴、詞元、詞干、偏旁部首等,以及詞匯的語言學(xué)特征如詞性、語法成分樹、語義角色、句法依存樹、回指等。

        圖3 “革命”在70年代和80年代的語義近鄰詞

        詞匯分布語義模型是建立在對(duì)海量語料分析的基礎(chǔ)上的,它天然符合美國(guó)描寫語言學(xué)的主張,即通過客觀和機(jī)械的方法來研究語言。因此,如果語料中詞匯的語義發(fā)生變遷(詞義擴(kuò)大、縮小、產(chǎn)生新義或消亡),模型中的詞匯分布語義也會(huì)隨之改變。我們對(duì)《人民日?qǐng)?bào)》語料進(jìn)行歷時(shí)分割,使用字+詞+詞性的分布,訓(xùn)練得到詞匯分布表示后,發(fā)現(xiàn)某些詞匯隨社會(huì)發(fā)展而出現(xiàn)詞義變遷現(xiàn)象。以詞匯“革命”的為例,可以觀察到其詞義在20世紀(jì)70年代和80年代的有著顯著變化。如下圖3所示,70年代,“革命”一詞與文化大革命緊密相關(guān),語義近鄰中包含大批與階級(jí)斗爭(zhēng)密切相關(guān)的詞匯。80年代,鄧小平“改革是中國(guó)的第二次革命”的著名論斷賦予了“革命”一詞新的科學(xué)內(nèi)涵,其語義近鄰詞中出現(xiàn)了“拓荒牛”、“開拓創(chuàng)新”、“奮力拼搏”等反映社會(huì)變革的具有鮮明時(shí)代特征的詞匯??梢?,通過歷時(shí)語料的訓(xùn)練,詞匯分布語義能夠?yàn)橛^察社會(huì)變遷和文化演變提供新的視角。

        五、結(jié)語

        自然語言理解是人工智能的一種高級(jí)表現(xiàn)形式,詞匯的語義表示屬于自然語言理解的基礎(chǔ)研究。通過對(duì)語言學(xué)學(xué)說史的梳理和對(duì)語料庫的實(shí)證分析,可以認(rèn)為,當(dāng)前以神經(jīng)語言模型為代表的詞匯分布語義,其哲學(xué)淵源是意義的“使用論”;而詞匯和語言要素之間的句段和聯(lián)想關(guān)系,是詞匯“使用”的具體表現(xiàn),并可由此來刻畫詞匯的意義;以美國(guó)描寫語言學(xué)為代表的結(jié)構(gòu)語言學(xué),構(gòu)成了詞匯分布語義的理論基礎(chǔ),分布的不同將導(dǎo)致意義的不同。

        至此我們可以回答引言中的三個(gè)問題。第一,詞匯分布語義本質(zhì)上是從語料中習(xí)得的語義,反映的是相應(yīng)語料中詞匯的使用模式和偏好,因此也會(huì)客觀折射出社會(huì)文化生活的某些風(fēng)貌特征。第二,詞匯分布語義建立在描寫語言學(xué)的結(jié)構(gòu)主義之上,結(jié)構(gòu)主義是由索緒爾關(guān)于語言是一個(gè)符號(hào)系統(tǒng)的理論發(fā)展而來的,主張語言分析要使用機(jī)械方法的立場(chǎng)。如果承認(rèn)這一點(diǎn),那么基于語料的詞匯分布語義,理論上是能夠完整覆蓋語料范圍內(nèi)的所有詞義的。需要指出的是,雖然詞匯分布語義表達(dá)的是作為語言的基本單元的詞匯的意義,但在深度學(xué)習(xí)領(lǐng)域發(fā)展起來的循環(huán)、卷積、遞歸等神經(jīng)網(wǎng)絡(luò)模型,目前已經(jīng)能夠?qū)Σ煌6鹊恼Z言單元進(jìn)行組合,從而獲得更大粒度的語義表示,因此,詞匯語義表示研究的進(jìn)步,對(duì)意義“使用論”在語言哲學(xué)方向的發(fā)展,也提供了一種新的視角和途徑。第三,詞匯分布語義建立在分布假設(shè)基礎(chǔ)上,不可避免存在固有的局限。首先,分布語義的假設(shè)是“相似的詞具有相似的上下文”,然而此處的“相似”這個(gè)概念,實(shí)際上指的是語義上的關(guān)聯(lián),既包括同義,也包括反義、上下位等其他語義關(guān)系;其次,分布語義反映的是語料庫中詞匯的使用模式,而語料庫又不可避免地帶有社會(huì)文化和制度的烙印,包括現(xiàn)實(shí)世界中固有的偏見或歧視,例如性別歧視、種族差異等,因此,在基于詞匯分布語義的人工智能決策應(yīng)用中,需要充分考慮社會(huì)公平和基本倫理。

        注釋:

        ①漢語方面的語義詞典主要有梅家駒等:《同義詞詞林》,上海辭書出版社1983年版;董氏父子的《知網(wǎng)》,參見董振東,董強(qiáng)《知網(wǎng)和漢語研究》,《當(dāng)代語言學(xué)》2001年第1期;北京大學(xué)的中文概念詞典,參見于江生,俞士汶《中文概念詞典的結(jié)構(gòu)》,《中文信息學(xué)報(bào)》2002年第4期;英文方語義詞典主要有WordNet、BabelNet、ConceptNet 等。

        ②潘俊、吳宗大:《詞匯表示學(xué)習(xí)研究進(jìn)展》,《情報(bào)學(xué)報(bào)》2019年第11期。

        ③語料數(shù)據(jù)爬取自http://data.people.com.cn。

        ④習(xí)慣上,把對(duì)意義的哲學(xué)研究稱作意義理論(theory of meaning),而把對(duì)意義的語言學(xué)研究稱作語義學(xué)(semantics);語言的意義,以及語言和世界的關(guān)系,是語言哲學(xué)的兩個(gè)中心問題,參見陳嘉映:《語言哲學(xué)》,北京大學(xué)出版社2003年版,第17頁。

        ⑤《著作殘篇D1》,載北京大學(xué)哲學(xué)系外國(guó)哲學(xué)史教研室編譯:《古希臘羅馬哲學(xué)》,第18頁。

        ⑥《留基波與德謨克里特著作殘篇》,載北京大學(xué)哲學(xué)系外國(guó)哲學(xué)史教研室編譯:《古希臘羅馬哲學(xué)》,第106頁。

        ⑦亞里士多德:《工具論》,李匡武譯,廣東人民出版社1984年版,第56頁。

        ⑧這種名實(shí)分離的觀點(diǎn),與我國(guó)先秦思想家荀子在《正名篇》中所提出的“名固無實(shí),約之以命實(shí)”的觀點(diǎn)是一致的。參見李志強(qiáng):《公元前6-前3世紀(jì)中西方語言學(xué)的萌芽——先秦和希臘語言觀研究》,博士論文,第18頁。

        ⑨陳嘉映:《語言哲學(xué)》,北京大學(xué)出版社2003年版,第13頁。

        ⑩弗雷格:《弗雷格哲學(xué)論著選輯》,王路譯,商務(wù)印書館2006年版,第99~100頁。

        ?羅素:《數(shù)理邏輯導(dǎo)論》,晏成書譯,商務(wù)印書館1982年版,第157~169頁。

        ?維特根斯坦:《邏輯哲學(xué)論》,賀紹甲譯,商務(wù)印書館1996版,第34頁。

        ?維特根斯坦:《哲學(xué)研究》,范光棣、湯潮譯,三聯(lián)書店1992年版,第31頁。

        ?John R Firth.The technique of semantics.Transactions of the Philological Society,1935,34(1),pp.36~73.

        ?D.A.克魯斯,榕培(譯):《用語境法研究詞匯語義學(xué)》,《外語與外語教學(xué)》1987年第4期。

        ?這三則語料均檢索自“北京大學(xué)CCL 現(xiàn)代漢語語料庫”。

        ?Mikolov T,Yih W,Zweig G.Linguistic regularities in continuous space word representations.Proceedings of the Conference of the North American Chapter of the ACL,2013,pp.746~751.

        ?F.Ungereer,H.J.Schmid,An introduction to cognitive linguistics,外語教學(xué)與研究出版社2001年版,第F36頁。

        ?Lakoff G.,Johnson M.Metaphors we live by,University of Chicago Press,1980.

        ?Edward Joseph Grady.Foundations of meaning:primary metaphors and primary scenes,UMI,1998.

        猜你喜歡
        句段語料語言學(xué)
        精彩句段
        精彩句段一
        精彩句段二
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        認(rèn)知語言學(xué)與對(duì)外漢語教學(xué)
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        精彩句段
        語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        亚洲AV无码成人网站久久精品| 亚洲丝袜美腿精品视频| 日韩在线视频专区九区| 伊人中文字幕亚洲精品乱码| 青楼妓女禁脔道具调教sm| 国产老熟女狂叫对白| 亚洲欲色欲香天天综合网| 国产精品每日更新在线观看 | 国产人妻人伦精品1国产| 亚洲色www成人永久网址| 久久久精品久久日韩一区综合| 亚洲毛片在线播放| 无码成年性午夜免费网站蜜蜂 | 女优一区二区三区在线观看| 48沈阳熟女高潮嗷嗷叫| 无码人妻品一区二区三区精99| 精品十八禁免费观看| 亚洲AV日韩Av无码久久| 色噜噜精品一区二区三区| 日本免费看片一区二区三区| 嫩草伊人久久精品少妇av| 国产综合无码一区二区辣椒| 毛茸茸的中国女bbw| 亚洲无AV码一区二区三区| 久久精见国产亚洲av高清热| 国产精品一区二区三区卡| 国产成人亚洲综合无码品善网 | 一本色道久久综合亚洲精品小说| 一区二区免费国产a在亚洲| 日韩麻豆视频在线观看| 亚洲一区二区女搞男| 日本一卡2卡3卡4卡无卡免费网站| 久久久久亚洲av无码专区桃色| 亚洲一区二区精品久久岳| 日本高清视频在线观看一区二区| av 日韩 人妻 黑人 综合 无码 | 性色av无码久久一区二区三区| 91精品国产综合成人| 99久久免费精品色老| 高清在线有码日韩中文字幕| 人妻 色综合网站|