亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

WantWords：基于神經(jīng)網(wǎng)絡(luò)技術(shù)的反向詞典

2022-07-20 01:54:24豈凡超劉知遠(yuǎn)孫茂松

辭書研究 2022年4期

豈凡超張磊劉知遠(yuǎn) 孫茂松

一、反向詞典及其價(jià)值

所謂“反向詞典”，顧名思義，是和一般詞典功能恰好相反的一種“詞典”。（Sierra 2000）一般詞典是幫助使用者了解一個(gè)詞語(yǔ)的信息及用法，即以某個(gè)詞語(yǔ)作為輸入，以該詞語(yǔ)的定義等信息作為輸出。例如，輸入“高峻”給一個(gè)漢語(yǔ)詞典，該詞典會(huì)告訴我們它表達(dá)的意思是“（山勢(shì)、地勢(shì)等）高而陡”。而反向詞典則恰好相反，它以表達(dá)某種意思的語(yǔ)義描述作為輸入，輸出符合輸入描述的詞語(yǔ)。例如，輸入“山非常高”，反向詞典就會(huì)輸出“高峻”“巍然”“嵯峨”等詞語(yǔ)（詳見(jiàn)圖1）。

圖1 反向詞典示意圖

反向詞典有重要的實(shí)用價(jià)值，具體使用場(chǎng)景包括：

（1）解決暫時(shí)性忘詞的問(wèn)題。詞窮也被稱為“舌尖現(xiàn)象”（tip-of-the-tongue phenomenon）（Brown & McNeill 1966），經(jīng)歷舌尖現(xiàn)象的人知道目標(biāo)詞語(yǔ)的意思，甚至能回憶起目標(biāo)詞語(yǔ)的某些特征，例如其中的一個(gè)字或一個(gè)音節(jié)，但是無(wú)法完整地想起目標(biāo)詞語(yǔ)。根據(jù)心理學(xué)相關(guān)研究，舌尖現(xiàn)象是一種十分普遍的語(yǔ)言產(chǎn)生失敗現(xiàn)象，不同年齡、不同性別、不同受教育程度的人群在使用不同語(yǔ)言時(shí)均會(huì)遇到該問(wèn)題。（郭桃梅，彭聃齡 2005）494-496而且舌尖現(xiàn)象的出現(xiàn)頻率也較高，日記研究表明舌尖現(xiàn)象在年輕人中至少每星期發(fā)生一次，而老年人則增加到大概每天一次，對(duì)于需要頻繁進(jìn)行文字表達(dá)的人，例如作家、研究人員、學(xué)生，舌尖現(xiàn)象的發(fā)生頻率則會(huì)增加若干倍。（姜敏敏，李虎 2011）反向詞典是解決舌尖現(xiàn)象的最有效工具，使用者在忘詞時(shí)只需輸入對(duì)目標(biāo)詞語(yǔ)的描述，再利用若干篩選器（如字?jǐn)?shù)、詞性等），就可以迅速找到目標(biāo)詞語(yǔ)，免除久久不能想起詞語(yǔ)的煩惱。

（2）緩解“網(wǎng)絡(luò)失語(yǔ)癥”問(wèn)題。目前各種網(wǎng)絡(luò)流行語(yǔ)充斥著人們——尤其是年輕人——的交流和表達(dá)，越來(lái)越多的人逐漸喪失了基本的語(yǔ)言表達(dá)能力，這種現(xiàn)象被稱為“網(wǎng)絡(luò)失語(yǔ)癥”。2019年中國(guó)青年報(bào)社會(huì)調(diào)查中心對(duì)2002名受訪者進(jìn)行的一項(xiàng)調(diào)查顯示，76.5%的受訪者感覺(jué)自己的語(yǔ)言越來(lái)越貧乏。（常澤昱，任霧 2021）在社交媒體“豆瓣”上有一個(gè)名為“文字失語(yǔ)者互助聯(lián)盟”的興趣小組，［1］目前已有超過(guò)30萬(wàn)人在其中尋求包括網(wǎng)絡(luò)流行語(yǔ)的替代用詞在內(nèi)的合適的文字表達(dá)方式。反向詞典也可以有效地緩解“網(wǎng)絡(luò)失語(yǔ)癥”的問(wèn)題，幫助用戶找到符合想表達(dá)意思的合適的詞語(yǔ)。

（3）幫助語(yǔ)言學(xué)習(xí)者學(xué)習(xí)、回憶、鞏固詞匯。首先，某種語(yǔ)言的初學(xué)者（無(wú)論是母語(yǔ)初學(xué)者還是第二語(yǔ)言初學(xué)者）對(duì)于詞語(yǔ)的記憶往往并不牢固，出現(xiàn)“舌尖現(xiàn)象”的頻率也大大增加，（Kreiner & Degani 2015；戎玲等 2018）273-274反向詞典可以幫助他們回憶、鞏固學(xué)過(guò)的詞語(yǔ)。其次，反向詞典可以輸出大量符合輸入描述的詞語(yǔ)，幫忙語(yǔ)言初學(xué)者了解、學(xué)習(xí)一些新的詞匯，尤其是在寫作時(shí)提供幫助。支持跨語(yǔ)言查詢的反向詞典對(duì)于第二語(yǔ)言學(xué)習(xí)者的輔助作用更加巨大，他們可以使用自己更為熟悉的母語(yǔ)來(lái)檢索遺忘的第二語(yǔ)言的詞語(yǔ)。

（4）幫助選詞性失語(yǔ)癥（word selection anomia，又稱“選詞性命名不能”）患者。這種癥狀由腦部損傷引起，患者可以識(shí)別并描述某個(gè)物體但是無(wú)法記起該物體的名稱。（Benson 1979）據(jù)統(tǒng)計(jì)，每100萬(wàn)人中至少有一人罹患選詞性失語(yǔ)癥。（Rohreret al. 2008）該癥患者的生活質(zhì)量以及人際溝通受到嚴(yán)重影響，而反向詞典可以在很大程度上幫助這些患者，提升他們的生活質(zhì)量。

二、現(xiàn)有的反向詞典及實(shí)現(xiàn)方法

反向詞典可以看作一種特殊的搜索引擎，目前國(guó)外有一些支持英語(yǔ)詞語(yǔ)檢索的反向詞典，例如OneLook［2］、ReverseDictionary［3］。但是除了本文介紹的WantWords之外，還沒(méi)有支持中文詞語(yǔ)檢索的反向詞典。

反向詞典背后的技術(shù)屬于自然語(yǔ)言處理（Natural Language Processing）的范疇，這是一門讓計(jì)算機(jī)能夠理解并說(shuō)出人類語(yǔ)言的學(xué)科，也被稱作“計(jì)算語(yǔ)言學(xué)”。

自然語(yǔ)言處理相關(guān)研究中，反向詞典的算法主要有兩類。第一類方法基于句子匹配，（Zock & Bilac 2004；Méndezet al.2013；Shawet al. 2013），該方法的主要思想是在數(shù)據(jù)庫(kù)中檢索與輸入查詢文本最相似的詞語(yǔ)定義并且返回對(duì)應(yīng)的詞。盡管這種方法在一些情況下比較有效，但是實(shí)際情況中用戶的輸入描述往往非常多變，而且和詞典編纂者撰寫的詞語(yǔ)定義有較大差別，因此在很多情況下這種方法效果不佳。

第二類方法是使用一個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型（一種深度學(xué)習(xí)模型）對(duì)輸入的描述編碼成一個(gè)向量，然后將其映射到詞語(yǔ)的向量（詞向量，word embedding）表示空間之中，最后返回向量空間中與輸入描述距離最近的詞語(yǔ)。（Hillet al. 2016；Morinaga & Yamaguchi 2018；Kartsakliset al. 2018；Hedderichet al. 2019；Pilehvar 2019）這類方法的效果很大程度上依賴于詞向量的質(zhì)量，然而，由于大部分詞語(yǔ)都是低頻詞，其詞向量質(zhì)量較差。因此，這類方法對(duì)于低頻詞的反向查詞效果較差。

為了解決上述問(wèn)題，我們此前提出了一種名為“多通道反向詞典”的方法。（Zhenget al. 2020）這一方法受到人根據(jù)描述猜測(cè)詞語(yǔ)過(guò)程的啟發(fā)，會(huì)首先根據(jù)語(yǔ)義描述預(yù)測(cè)詞語(yǔ)的特征，具體包括詞性、詞素、詞語(yǔ)類別和義原。［4］通過(guò)預(yù)測(cè)這些特征，模型就能更好地排除低質(zhì)量詞向量的干擾，更準(zhǔn)確地找到正確的詞語(yǔ)。例如，“平凡”和“凡人”的意思有很大的相關(guān)性，詞向量通常比較接近，但是它們的詞性不同，前者為形容詞，后者為名詞，當(dāng)輸入的描述為“平常人”時(shí)，模型能夠猜到目標(biāo)詞語(yǔ)是名詞，進(jìn)而將“平凡”排除在外，將“凡人”“ 凡夫”等正確的詞語(yǔ)保留。

根據(jù)多個(gè)評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果，我們提出的“多通道反向詞典”方法是當(dāng)前效果最好的反向詞典方法。

三、WantWords反向詞典

（一） WantWords介紹

基于上述“多通道反向詞典”方法，我們研發(fā)了WantWords反向詞典，（Qiet al. 2020）目前有網(wǎng)頁(yè)版（訪問(wèn)地址為https：//wantwords.net）和微信小程序兩個(gè)版本。

該詞典主要功能包括漢語(yǔ)和英語(yǔ)單語(yǔ)的反向查詞，以及漢英和英漢跨語(yǔ)言反向查詞。

圖2為反向詞典系統(tǒng)的查詢結(jié)果界面示例（以漢語(yǔ)單語(yǔ)查詢?yōu)槔Ｓ脩粼谳斎肟蜉斎雽?duì)目標(biāo)詞語(yǔ)的描述（圖中示例為“山非常高”）后點(diǎn)擊按鈕，即會(huì)在輸入框下方顯示工具欄以及100個(gè)最可能符合輸入描述的詞語(yǔ)。

工具欄由4個(gè)篩選器構(gòu)成。篩選器具體包括：（1）詞性篩選器，包含名詞、動(dòng)詞、形容詞、副詞等；（2）字?jǐn)?shù)篩選器；（3）韻腳篩選器，基于《中華通韻》的韻腳集合；（4）詞形篩選器，如輸入“高”可以匹配所有包含“高”字的詞。

根據(jù)候選詞語(yǔ)語(yǔ)言的不同，篩選器也略有不同，例如對(duì)于英語(yǔ)候選詞就沒(méi)有字?jǐn)?shù)和韻腳篩選器。

這些篩選器可以幫助用戶更快地找到目標(biāo)詞語(yǔ)，例如圖2中如果用戶想找的是形容“山非常高”的詞語(yǔ)，可以利用詞性篩選器去除形容詞之外其他詞性的詞語(yǔ)，進(jìn)而更快地找到滿足需求的詞語(yǔ)。

圖2 反向詞典系統(tǒng)查詞結(jié)果界面

對(duì)于所有展示出的候選詞，系統(tǒng)為相關(guān)性較高的詞語(yǔ)添加了深淺不同的背景色，相關(guān)性越高顏色越深。此外，用戶點(diǎn)擊某個(gè)候選詞，系統(tǒng)會(huì)彈出一個(gè)浮動(dòng)窗口，該窗口會(huì)顯示該候選詞的拼音、詞典定義等基本信息，以幫助不熟悉該詞的用戶學(xué)習(xí)、了解該詞，同時(shí)判斷該詞是否為自己所需。浮動(dòng)窗口中還提供了該詞在百度漢語(yǔ)或維基詞典等其他在線詞典中的鏈接，方便用戶跳轉(zhuǎn)到相應(yīng)的查詢結(jié)果頁(yè)面以進(jìn)一步了解該詞語(yǔ)。

本系統(tǒng)還設(shè)計(jì)了一套完善的用戶反饋系統(tǒng)。在每個(gè)詞語(yǔ)的浮動(dòng)窗口中，用戶可以通過(guò)點(diǎn)擊或來(lái)向系統(tǒng)反饋該詞是否符合輸入的描述。在頁(yè)面的最下方，用戶還可以直接反饋?zhàn)约赫J(rèn)為的符合輸入描述的詞語(yǔ)，或者提出其他的意見(jiàn)和建議。這些反饋將會(huì)保存在數(shù)據(jù)庫(kù)中，幫助后續(xù)提升系統(tǒng)的性能。

（二） WantWords基本工作流程

圖3展示了WantWords反向詞典的系統(tǒng)運(yùn)行流程。

圖3 WantWords的運(yùn)行流程

在用戶輸入詞語(yǔ)的描述后，首先從“漢語(yǔ)、英語(yǔ)、英漢、漢英”四種模式中選擇一種。在前兩種模式（單語(yǔ)模式）中，如果用戶的輸入不是一個(gè)詞，那么該輸入會(huì)被送到多通道反向詞典模型中，然后為詞表中的每個(gè)候選詞計(jì)算出一個(gè)相關(guān)性分?jǐn)?shù)；如果用戶的輸入是一個(gè)詞，那么候選詞的相關(guān)性分?jǐn)?shù)主要由輸入描述詞和候選詞的詞向量的相似度計(jì)算得到。

在后兩種模式（跨語(yǔ)言模式）中，我們定義輸入描述的語(yǔ)言為源語(yǔ)言，想查找的詞語(yǔ)的語(yǔ)言為目標(biāo)語(yǔ)言。如果輸入描述的不是一個(gè)詞，我們會(huì)調(diào)用翻譯引擎將其翻譯成目標(biāo)語(yǔ)言，然后進(jìn)入目標(biāo)語(yǔ)言單語(yǔ)模式的處理流程；如果輸入的是一個(gè)詞，我們會(huì)借助跨語(yǔ)言詞典獲得輸入詞語(yǔ)的目標(biāo)語(yǔ)言定義，然后再進(jìn)入目標(biāo)語(yǔ)言的單語(yǔ)模式處理流程。

在獲得相關(guān)性分?jǐn)?shù)后，所有的候選詞將會(huì)根據(jù)相關(guān)性分?jǐn)?shù)從高到低排列，作為輸出結(jié)果。不同的篩選器可以對(duì)輸出結(jié)果進(jìn)行調(diào)整。

（三） WantWords的主要?jiǎng)?chuàng)新點(diǎn)

WantWords反向詞典的創(chuàng)新點(diǎn)主要有以下三點(diǎn)。

1. WantWords是世界首個(gè)漢語(yǔ)反向詞典，填補(bǔ)了沒(méi)有漢語(yǔ)反向詞典的空白。這一系統(tǒng)將幫助廣大漢語(yǔ)學(xué)習(xí)者和使用者緩解“舌尖現(xiàn)象”“網(wǎng)絡(luò)失語(yǔ)癥”等問(wèn)題，同時(shí)也將對(duì)提高中國(guó)的選詞性失語(yǔ)癥患者的生活質(zhì)量做出貢獻(xiàn)。

2. WantWords也是世界上首個(gè)支持跨語(yǔ)言查詢的反向詞典，能夠大大提高第二語(yǔ)言學(xué)習(xí)者的學(xué)習(xí)效率，幫忙他們回憶、鞏固初學(xué)的詞匯，學(xué)習(xí)、了解新的詞匯，同時(shí)在他們寫作時(shí)也能起到重要的輔助作用。

3. 依賴于我們提出的多通道反向詞典模型，WantWords反向詞典的英語(yǔ)反向查詞性能也超過(guò)了現(xiàn)有的其他英語(yǔ)反向詞典。

四、WantWords反向詞典的現(xiàn)狀及未來(lái)

目前WantWords的累計(jì)查詢量已經(jīng)超過(guò)1400萬(wàn)次，每天的查詢量超過(guò)20萬(wàn)次，受到了眾多文字表達(dá)者的喜愛(ài)。

WantWords的第二版正在研發(fā)過(guò)程中，將有以下幾點(diǎn)主要更新：

1. 支持更多類型詞語(yǔ)的查詢，包括古漢語(yǔ)詞、專業(yè)術(shù)語(yǔ)、網(wǎng)絡(luò)流行語(yǔ)等；

2. 支持更多的篩選器，包括褒貶性、書面語(yǔ)/口語(yǔ)、常用度；

3. 支持更豐富的查詞模式，包括根據(jù)詞語(yǔ)的字形、音調(diào)特征來(lái)查詞，以及更強(qiáng)大的近反義詞查詢功能。

此外，我們也在研發(fā)WantWords的姐妹產(chǎn)品，可以根據(jù)用戶的現(xiàn)代漢語(yǔ)描述來(lái)查找表達(dá)相同意思的古詩(shī)文、名言名句、歇后語(yǔ)等。

附注

［1］ https：//www.douban.com/group/715666/。

［2］ https：//onelook.com/thesaurus/。

［3］ https：//reversedictionary.org/。

［4］義原在語(yǔ)言學(xué)中被定義為最小的語(yǔ)義單位，（Bloomfield 1926）一個(gè)詞語(yǔ)的語(yǔ)義可以由其被標(biāo)注的義原所表示。