豈凡超 張 磊 劉知遠(yuǎn) 孫茂松
所謂“反向詞典”,顧名思義,是和一般詞典功能恰好相反的一種“詞典”。(Sierra 2000)一般詞典是幫助使用者了解一個(gè)詞語(yǔ)的信息及用法,即以某個(gè)詞語(yǔ)作為輸入,以該詞語(yǔ)的定義等信息作為輸出。例如,輸入“高峻”給一個(gè)漢語(yǔ)詞典,該詞典會(huì)告訴我們它表達(dá)的意思是“(山勢(shì)、地勢(shì)等)高而陡”。而反向詞典則恰好相反,它以表達(dá)某種意思的語(yǔ)義描述作為輸入,輸出符合輸入描述的詞語(yǔ)。例如,輸入“山非常高”,反向詞典就會(huì)輸出“高峻”“巍然”“嵯峨”等詞語(yǔ)(詳見(jiàn)圖1)。
圖1 反向詞典示意圖
反向詞典有重要的實(shí)用價(jià)值,具體使用場(chǎng)景包括:
(1) 解決暫時(shí)性忘詞的問(wèn)題。詞窮也被稱為“舌尖現(xiàn)象”(tip-of-the-tongue phenomenon)(Brown & McNeill 1966),經(jīng)歷舌尖現(xiàn)象的人知道目標(biāo)詞語(yǔ)的意思,甚至能回憶起目標(biāo)詞語(yǔ)的某些特征,例如其中的一個(gè)字或一個(gè)音節(jié),但是無(wú)法完整地想起目標(biāo)詞語(yǔ)。根據(jù)心理學(xué)相關(guān)研究,舌尖現(xiàn)象是一種十分普遍的語(yǔ)言產(chǎn)生失敗現(xiàn)象,不同年齡、不同性別、不同受教育程度的人群在使用不同語(yǔ)言時(shí)均會(huì)遇到該問(wèn)題。(郭桃梅,彭聃齡 2005)494-496而且舌尖現(xiàn)象的出現(xiàn)頻率也較高,日記研究表明舌尖現(xiàn)象在年輕人中至少每星期發(fā)生一次,而老年人則增加到大概每天一次,對(duì)于需要頻繁進(jìn)行文字表達(dá)的人,例如作家、研究人員、學(xué)生,舌尖現(xiàn)象的發(fā)生頻率則會(huì)增加若干倍。(姜敏敏,李虎 2011)反向詞典是解決舌尖現(xiàn)象的最有效工具,使用者在忘詞時(shí)只需輸入對(duì)目標(biāo)詞語(yǔ)的描述,再利用若干篩選器(如字?jǐn)?shù)、詞性等),就可以迅速找到目標(biāo)詞語(yǔ),免除久久不能想起詞語(yǔ)的 煩惱。
(2) 緩解“網(wǎng)絡(luò)失語(yǔ)癥”問(wèn)題。目前各種網(wǎng)絡(luò)流行語(yǔ)充斥著人們——尤其是年輕人——的交流和表達(dá),越來(lái)越多的人逐漸喪失了基本的語(yǔ)言表達(dá)能力,這種現(xiàn)象被稱為“網(wǎng)絡(luò)失語(yǔ)癥”。2019年中國(guó)青年報(bào)社會(huì)調(diào)查中心對(duì)2002名受訪者進(jìn)行的一項(xiàng)調(diào)查顯示,76.5%的受訪者感覺(jué)自己的語(yǔ)言越來(lái)越貧乏。(常澤昱,任霧 2021)在社交媒體“豆瓣”上有一個(gè)名為“文字失語(yǔ)者互助聯(lián)盟”的興趣小組,[1]目前已有超過(guò)30萬(wàn)人在其中尋求包括網(wǎng)絡(luò)流行語(yǔ)的替代用詞在內(nèi)的合適的文字表達(dá)方式。反向詞典也可以有效地緩解“網(wǎng)絡(luò)失語(yǔ)癥”的問(wèn)題,幫助用戶找到符合想表達(dá)意思的合適的 詞語(yǔ)。
(3) 幫助語(yǔ)言學(xué)習(xí)者學(xué)習(xí)、回憶、鞏固詞匯。首先,某種語(yǔ)言的初學(xué)者(無(wú)論是母語(yǔ)初學(xué)者還是第二語(yǔ)言初學(xué)者)對(duì)于詞語(yǔ)的記憶往往并不牢固,出現(xiàn)“舌尖現(xiàn)象”的頻率也大大增加,(Kreiner & Degani 2015;戎玲等 2018)273-274反向詞典可以幫助他們回憶、鞏固學(xué)過(guò)的詞語(yǔ)。其次,反向詞典可以輸出大量符合輸入描述的詞語(yǔ),幫忙語(yǔ)言初學(xué)者了解、學(xué)習(xí)一些新的詞匯,尤其是在寫作時(shí)提供幫助。支持跨語(yǔ)言查詢的反向詞典對(duì)于第二語(yǔ)言學(xué)習(xí)者的輔助作用更加巨大,他們可以使用自己更為熟悉的母語(yǔ)來(lái)檢索遺忘的第二語(yǔ)言的詞語(yǔ)。
(4) 幫助選詞性失語(yǔ)癥(word selection anomia,又稱“選詞性命名不能”)患者。這種癥狀由腦部損傷引起,患者可以識(shí)別并描述某個(gè)物體但是無(wú)法記起該物體的名稱。(Benson 1979)據(jù)統(tǒng)計(jì),每100萬(wàn)人中至少有一人罹患選詞性失語(yǔ)癥。(Rohreret al. 2008)該癥患者的生活質(zhì)量以及人際溝通受到嚴(yán)重影響,而反向詞典可以在很大程度上幫助這些患者,提升他們的生活質(zhì)量。
反向詞典可以看作一種特殊的搜索引擎,目前國(guó)外有一些支持英語(yǔ)詞語(yǔ)檢索的反向詞典,例如OneLook[2]、ReverseDictionary[3]。但是除了本文介紹的WantWords之外,還沒(méi)有支持中文詞語(yǔ)檢索的反向詞典。
反向詞典背后的技術(shù)屬于自然語(yǔ)言處理(Natural Language Processing)的范疇,這是一門讓計(jì)算機(jī)能夠理解并說(shuō)出人類語(yǔ)言的學(xué)科,也被稱作“計(jì)算語(yǔ)言學(xué)”。
自然語(yǔ)言處理相關(guān)研究中,反向詞典的算法主要有兩類。第一類方法基于句子匹配,(Zock & Bilac 2004;Méndezet al.2013;Shawet al. 2013),該方法的主要思想是在數(shù)據(jù)庫(kù)中檢索與輸入查詢文本最相似的詞語(yǔ)定義并且返回對(duì)應(yīng)的詞。盡管這種方法在一些情況下比較有效,但是實(shí)際情況中用戶的輸入描述往往非常多變,而且和詞典編纂者撰寫的詞語(yǔ)定義有較大差別,因此在很多情況下這種方法效果不佳。
第二類方法是使用一個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(一種深度學(xué)習(xí)模型)對(duì)輸入的描述編碼成一個(gè)向量,然后將其映射到詞語(yǔ)的向量(詞向量,word embedding)表示空間之中,最后返回向量空間中與輸入描述距離最近的詞語(yǔ)。(Hillet al. 2016;Morinaga & Yamaguchi 2018;Kartsakliset al. 2018;Hedderichet al. 2019;Pilehvar 2019)這類方法的效果很大程度上依賴于詞向量的質(zhì)量,然而,由于大部分詞語(yǔ)都是低頻詞,其詞向量質(zhì)量較差。因此,這類方法對(duì)于低頻詞的反向查詞效果較差。
為了解決上述問(wèn)題,我們此前提出了一種名為“多通道反向詞典”的方法。(Zhenget al. 2020)這一方法受到人根據(jù)描述猜測(cè)詞語(yǔ)過(guò)程的啟發(fā),會(huì)首先根據(jù)語(yǔ)義描述預(yù)測(cè)詞語(yǔ)的特征,具體包括詞性、詞素、詞語(yǔ)類別和義原。[4]通過(guò)預(yù)測(cè)這些特征,模型就能更好地排除低質(zhì)量詞向量的干擾,更準(zhǔn)確地找到正確的詞語(yǔ)。例如,“平凡”和“凡人”的意思有很大的相關(guān)性,詞向量通常比較接近,但是它們的詞性不同,前者為形容詞,后者為名詞,當(dāng)輸入的描述為“平常人”時(shí),模型能夠猜到目標(biāo)詞語(yǔ)是名詞,進(jìn)而將“平凡”排除在外,將“凡人”“ 凡夫”等正確的詞語(yǔ)保留。
根據(jù)多個(gè)評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,我們提出的“多通道反向詞典”方法是當(dāng)前效果最好的反向詞典方法。
基于上述“多通道反向詞典”方法,我們研發(fā)了WantWords反向詞典,(Qiet al. 2020)目前有網(wǎng)頁(yè)版(訪問(wèn)地址為https://wantwords.net)和微信小程序兩個(gè)版本。
該詞典主要功能包括漢語(yǔ)和英語(yǔ)單語(yǔ)的反向查詞,以及漢英和英漢跨語(yǔ)言反向查 詞。
圖2為反向詞典系統(tǒng)的查詢結(jié)果界面示例(以漢語(yǔ)單語(yǔ)查詢?yōu)槔S脩粼谳斎肟蜉斎雽?duì)目標(biāo)詞語(yǔ)的描述(圖中示例為“山非常高”)后點(diǎn)擊按鈕,即會(huì)在輸入框下方顯示工具欄以及100個(gè)最可能符合輸入描述的詞語(yǔ)。
工具欄由4個(gè)篩選器構(gòu)成。篩選器具體包括:(1) 詞性篩選器,包含名詞、動(dòng)詞、形容詞、副詞等;(2) 字?jǐn)?shù)篩選器;(3) 韻腳篩選器,基于《中華通韻》的韻腳集合;(4) 詞形篩選器,如輸入“高”可以匹配所有包含“高”字的詞。
根據(jù)候選詞語(yǔ)語(yǔ)言的不同,篩選器也略有不同,例如對(duì)于英語(yǔ)候選詞就沒(méi)有字?jǐn)?shù)和韻腳篩選器。
這些篩選器可以幫助用戶更快地找到目標(biāo)詞語(yǔ),例如圖2中如果用戶想找的是形容“山非常高”的詞語(yǔ),可以利用詞性篩選器去除形容詞之外其他詞性的詞語(yǔ),進(jìn)而更快地找到滿足需求的詞語(yǔ)。
圖2 反向詞典系統(tǒng)查詞結(jié)果界面
對(duì)于所有展示出的候選詞,系統(tǒng)為相關(guān)性較高的詞語(yǔ)添加了深淺不同的背景色,相關(guān)性越高顏色越深。此外,用戶點(diǎn)擊某個(gè)候選詞,系統(tǒng)會(huì)彈出一個(gè)浮動(dòng)窗口,該窗口會(huì)顯示該候選詞的拼音、詞典定義等基本信息,以幫助不熟悉該詞的用戶學(xué)習(xí)、了解該詞,同時(shí)判斷該詞是否為自己所需。浮動(dòng)窗口中還提供了該詞在百度漢語(yǔ)或維基詞典等其他在線詞典中的鏈接,方便用戶跳轉(zhuǎn)到相應(yīng)的查詢結(jié)果頁(yè)面以進(jìn)一步了解該詞語(yǔ)。
本系統(tǒng)還設(shè)計(jì)了一套完善的用戶反饋系統(tǒng)。在每個(gè)詞語(yǔ)的浮動(dòng)窗口中,用戶可以通過(guò)點(diǎn)擊或來(lái)向系統(tǒng)反饋該詞是否符合輸入的描述。在頁(yè)面的最下方,用戶還可以直接反饋?zhàn)约赫J(rèn)為的符合輸入描述的詞語(yǔ),或者提出其他的意見(jiàn)和建議。這些反饋將會(huì)保存在數(shù)據(jù)庫(kù)中,幫助后續(xù)提升系統(tǒng)的性能。
圖3展示了WantWords反向詞典的系統(tǒng)運(yùn)行流程。
圖3 WantWords的運(yùn)行流程
在用戶輸入詞語(yǔ)的描述后,首先從“漢語(yǔ)、英語(yǔ)、英漢、漢英”四種模式中選擇一種。在前兩種模式(單語(yǔ)模式)中,如果用戶的輸入不是一個(gè)詞,那么該輸入會(huì)被送到多通道反向詞典模型中,然后為詞表中的每個(gè)候選詞計(jì)算出一個(gè)相關(guān)性分?jǐn)?shù);如果用戶的輸入是一個(gè)詞,那么候選詞的相關(guān)性分?jǐn)?shù)主要由輸入描述詞和候選詞的詞向量的相似度計(jì)算得到。
在后兩種模式(跨語(yǔ)言模式)中,我們定義輸入描述的語(yǔ)言為源語(yǔ)言,想查找的詞語(yǔ)的語(yǔ)言為目標(biāo)語(yǔ)言。如果輸入描述的不是一個(gè)詞,我們會(huì)調(diào)用翻譯引擎將其翻譯成目標(biāo)語(yǔ)言,然后進(jìn)入目標(biāo)語(yǔ)言單語(yǔ)模式的處理流程;如果輸入的是一個(gè)詞,我們會(huì)借助跨語(yǔ)言詞典獲得輸入詞語(yǔ)的目標(biāo)語(yǔ)言定義,然后再進(jìn)入目標(biāo)語(yǔ)言的單語(yǔ)模式處理流程。
在獲得相關(guān)性分?jǐn)?shù)后,所有的候選詞將會(huì)根據(jù)相關(guān)性分?jǐn)?shù)從高到低排列,作為輸出結(jié)果。不同的篩選器可以對(duì)輸出結(jié)果進(jìn)行調(diào)整。
WantWords反向詞典的創(chuàng)新點(diǎn)主要有以下三點(diǎn)。
1. WantWords是世界首個(gè)漢語(yǔ)反向詞典,填補(bǔ)了沒(méi)有漢語(yǔ)反向詞典的空白。這一系統(tǒng)將幫助廣大漢語(yǔ)學(xué)習(xí)者和使用者緩解“舌尖現(xiàn)象”“網(wǎng)絡(luò)失語(yǔ)癥”等問(wèn)題,同時(shí)也將對(duì)提高中國(guó)的選詞性失語(yǔ)癥患者的生活質(zhì)量做出貢獻(xiàn)。
2. WantWords也是世界上首個(gè)支持跨語(yǔ)言查詢的反向詞典,能夠大大提高第二語(yǔ)言學(xué)習(xí)者的學(xué)習(xí)效率,幫忙他們回憶、鞏固初學(xué)的詞匯,學(xué)習(xí)、了解新的詞匯,同時(shí)在他們寫作時(shí)也能起到重要的輔助作用。
3. 依賴于我們提出的多通道反向詞典模型,WantWords反向詞典的英語(yǔ)反向查詞性能也超過(guò)了現(xiàn)有的其他英語(yǔ)反向詞典。
目前WantWords的累計(jì)查詢量已經(jīng)超過(guò)1400萬(wàn)次,每天的查詢量超過(guò)20萬(wàn)次,受到了眾多文字表達(dá)者的喜愛(ài)。
WantWords的第二版正在研發(fā)過(guò)程中,將有以下幾點(diǎn)主要更新:
1. 支持更多類型詞語(yǔ)的查詢,包括古漢語(yǔ)詞、專業(yè)術(shù)語(yǔ)、網(wǎng)絡(luò)流行語(yǔ)等;
2. 支持更多的篩選器,包括褒貶性、書面語(yǔ)/口語(yǔ)、常用度;
3. 支持更豐富的查詞模式,包括根據(jù)詞語(yǔ)的字形、音調(diào)特征來(lái)查詞,以及更強(qiáng)大的近反義詞查詢功能。
此外,我們也在研發(fā)WantWords的姐妹產(chǎn)品,可以根據(jù)用戶的現(xiàn)代漢語(yǔ)描述來(lái)查找表達(dá)相同意思的古詩(shī)文、名言名句、歇后語(yǔ)等。
附注
[1] https://www.douban.com/group/715666/。
[2] https://onelook.com/thesaurus/。
[3] https://reversedictionary.org/。
[4] 義原在語(yǔ)言學(xué)中被定義為最小的語(yǔ)義單位,(Bloomfield 1926)一個(gè)詞語(yǔ)的語(yǔ)義可以由其被標(biāo)注的義原所表示。