亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        WantWords:基于神經(jīng)網(wǎng)絡(luò)技術(shù)的反向詞典

        2022-07-20 01:54:24豈凡超劉知遠(yuǎn)孫茂松
        辭書研究 2022年4期
        關(guān)鍵詞:目標(biāo)語(yǔ)言失語(yǔ)癥舌尖

        豈凡超 張 磊 劉知遠(yuǎn) 孫茂松

        一、反向詞典及其價(jià)值

        所謂“反向詞典”,顧名思義,是和一般詞典功能恰好相反的一種“詞典”。(Sierra 2000)一般詞典是幫助使用者了解一個(gè)詞語(yǔ)的信息及用法,即以某個(gè)詞語(yǔ)作為輸入,以該詞語(yǔ)的定義等信息作為輸出。例如,輸入“高峻”給一個(gè)漢語(yǔ)詞典,該詞典會(huì)告訴我們它表達(dá)的意思是“(山勢(shì)、地勢(shì)等)高而陡”。而反向詞典則恰好相反,它以表達(dá)某種意思的語(yǔ)義描述作為輸入,輸出符合輸入描述的詞語(yǔ)。例如,輸入“山非常高”,反向詞典就會(huì)輸出“高峻”“巍然”“嵯峨”等詞語(yǔ)(詳見(jiàn)圖1)。

        圖1 反向詞典示意圖

        反向詞典有重要的實(shí)用價(jià)值,具體使用場(chǎng)景包括:

        (1) 解決暫時(shí)性忘詞的問(wèn)題。詞窮也被稱為“舌尖現(xiàn)象”(tip-of-the-tongue phenomenon)(Brown & McNeill 1966),經(jīng)歷舌尖現(xiàn)象的人知道目標(biāo)詞語(yǔ)的意思,甚至能回憶起目標(biāo)詞語(yǔ)的某些特征,例如其中的一個(gè)字或一個(gè)音節(jié),但是無(wú)法完整地想起目標(biāo)詞語(yǔ)。根據(jù)心理學(xué)相關(guān)研究,舌尖現(xiàn)象是一種十分普遍的語(yǔ)言產(chǎn)生失敗現(xiàn)象,不同年齡、不同性別、不同受教育程度的人群在使用不同語(yǔ)言時(shí)均會(huì)遇到該問(wèn)題。(郭桃梅,彭聃齡 2005)494-496而且舌尖現(xiàn)象的出現(xiàn)頻率也較高,日記研究表明舌尖現(xiàn)象在年輕人中至少每星期發(fā)生一次,而老年人則增加到大概每天一次,對(duì)于需要頻繁進(jìn)行文字表達(dá)的人,例如作家、研究人員、學(xué)生,舌尖現(xiàn)象的發(fā)生頻率則會(huì)增加若干倍。(姜敏敏,李虎 2011)反向詞典是解決舌尖現(xiàn)象的最有效工具,使用者在忘詞時(shí)只需輸入對(duì)目標(biāo)詞語(yǔ)的描述,再利用若干篩選器(如字?jǐn)?shù)、詞性等),就可以迅速找到目標(biāo)詞語(yǔ),免除久久不能想起詞語(yǔ)的 煩惱。

        (2) 緩解“網(wǎng)絡(luò)失語(yǔ)癥”問(wèn)題。目前各種網(wǎng)絡(luò)流行語(yǔ)充斥著人們——尤其是年輕人——的交流和表達(dá),越來(lái)越多的人逐漸喪失了基本的語(yǔ)言表達(dá)能力,這種現(xiàn)象被稱為“網(wǎng)絡(luò)失語(yǔ)癥”。2019年中國(guó)青年報(bào)社會(huì)調(diào)查中心對(duì)2002名受訪者進(jìn)行的一項(xiàng)調(diào)查顯示,76.5%的受訪者感覺(jué)自己的語(yǔ)言越來(lái)越貧乏。(常澤昱,任霧 2021)在社交媒體“豆瓣”上有一個(gè)名為“文字失語(yǔ)者互助聯(lián)盟”的興趣小組,[1]目前已有超過(guò)30萬(wàn)人在其中尋求包括網(wǎng)絡(luò)流行語(yǔ)的替代用詞在內(nèi)的合適的文字表達(dá)方式。反向詞典也可以有效地緩解“網(wǎng)絡(luò)失語(yǔ)癥”的問(wèn)題,幫助用戶找到符合想表達(dá)意思的合適的 詞語(yǔ)。

        (3) 幫助語(yǔ)言學(xué)習(xí)者學(xué)習(xí)、回憶、鞏固詞匯。首先,某種語(yǔ)言的初學(xué)者(無(wú)論是母語(yǔ)初學(xué)者還是第二語(yǔ)言初學(xué)者)對(duì)于詞語(yǔ)的記憶往往并不牢固,出現(xiàn)“舌尖現(xiàn)象”的頻率也大大增加,(Kreiner & Degani 2015;戎玲等 2018)273-274反向詞典可以幫助他們回憶、鞏固學(xué)過(guò)的詞語(yǔ)。其次,反向詞典可以輸出大量符合輸入描述的詞語(yǔ),幫忙語(yǔ)言初學(xué)者了解、學(xué)習(xí)一些新的詞匯,尤其是在寫作時(shí)提供幫助。支持跨語(yǔ)言查詢的反向詞典對(duì)于第二語(yǔ)言學(xué)習(xí)者的輔助作用更加巨大,他們可以使用自己更為熟悉的母語(yǔ)來(lái)檢索遺忘的第二語(yǔ)言的詞語(yǔ)。

        (4) 幫助選詞性失語(yǔ)癥(word selection anomia,又稱“選詞性命名不能”)患者。這種癥狀由腦部損傷引起,患者可以識(shí)別并描述某個(gè)物體但是無(wú)法記起該物體的名稱。(Benson 1979)據(jù)統(tǒng)計(jì),每100萬(wàn)人中至少有一人罹患選詞性失語(yǔ)癥。(Rohreret al. 2008)該癥患者的生活質(zhì)量以及人際溝通受到嚴(yán)重影響,而反向詞典可以在很大程度上幫助這些患者,提升他們的生活質(zhì)量。

        二、現(xiàn)有的反向詞典及實(shí)現(xiàn)方法

        反向詞典可以看作一種特殊的搜索引擎,目前國(guó)外有一些支持英語(yǔ)詞語(yǔ)檢索的反向詞典,例如OneLook[2]、ReverseDictionary[3]。但是除了本文介紹的WantWords之外,還沒(méi)有支持中文詞語(yǔ)檢索的反向詞典。

        反向詞典背后的技術(shù)屬于自然語(yǔ)言處理(Natural Language Processing)的范疇,這是一門讓計(jì)算機(jī)能夠理解并說(shuō)出人類語(yǔ)言的學(xué)科,也被稱作“計(jì)算語(yǔ)言學(xué)”。

        自然語(yǔ)言處理相關(guān)研究中,反向詞典的算法主要有兩類。第一類方法基于句子匹配,(Zock & Bilac 2004;Méndezet al.2013;Shawet al. 2013),該方法的主要思想是在數(shù)據(jù)庫(kù)中檢索與輸入查詢文本最相似的詞語(yǔ)定義并且返回對(duì)應(yīng)的詞。盡管這種方法在一些情況下比較有效,但是實(shí)際情況中用戶的輸入描述往往非常多變,而且和詞典編纂者撰寫的詞語(yǔ)定義有較大差別,因此在很多情況下這種方法效果不佳。

        第二類方法是使用一個(gè)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(一種深度學(xué)習(xí)模型)對(duì)輸入的描述編碼成一個(gè)向量,然后將其映射到詞語(yǔ)的向量(詞向量,word embedding)表示空間之中,最后返回向量空間中與輸入描述距離最近的詞語(yǔ)。(Hillet al. 2016;Morinaga & Yamaguchi 2018;Kartsakliset al. 2018;Hedderichet al. 2019;Pilehvar 2019)這類方法的效果很大程度上依賴于詞向量的質(zhì)量,然而,由于大部分詞語(yǔ)都是低頻詞,其詞向量質(zhì)量較差。因此,這類方法對(duì)于低頻詞的反向查詞效果較差。

        為了解決上述問(wèn)題,我們此前提出了一種名為“多通道反向詞典”的方法。(Zhenget al. 2020)這一方法受到人根據(jù)描述猜測(cè)詞語(yǔ)過(guò)程的啟發(fā),會(huì)首先根據(jù)語(yǔ)義描述預(yù)測(cè)詞語(yǔ)的特征,具體包括詞性、詞素、詞語(yǔ)類別和義原。[4]通過(guò)預(yù)測(cè)這些特征,模型就能更好地排除低質(zhì)量詞向量的干擾,更準(zhǔn)確地找到正確的詞語(yǔ)。例如,“平凡”和“凡人”的意思有很大的相關(guān)性,詞向量通常比較接近,但是它們的詞性不同,前者為形容詞,后者為名詞,當(dāng)輸入的描述為“平常人”時(shí),模型能夠猜到目標(biāo)詞語(yǔ)是名詞,進(jìn)而將“平凡”排除在外,將“凡人”“ 凡夫”等正確的詞語(yǔ)保留。

        根據(jù)多個(gè)評(píng)測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,我們提出的“多通道反向詞典”方法是當(dāng)前效果最好的反向詞典方法。

        三、WantWords反向詞典

        (一) WantWords介紹

        基于上述“多通道反向詞典”方法,我們研發(fā)了WantWords反向詞典,(Qiet al. 2020)目前有網(wǎng)頁(yè)版(訪問(wèn)地址為https://wantwords.net)和微信小程序兩個(gè)版本。

        該詞典主要功能包括漢語(yǔ)和英語(yǔ)單語(yǔ)的反向查詞,以及漢英和英漢跨語(yǔ)言反向查 詞。

        圖2為反向詞典系統(tǒng)的查詢結(jié)果界面示例(以漢語(yǔ)單語(yǔ)查詢?yōu)槔S脩粼谳斎肟蜉斎雽?duì)目標(biāo)詞語(yǔ)的描述(圖中示例為“山非常高”)后點(diǎn)擊按鈕,即會(huì)在輸入框下方顯示工具欄以及100個(gè)最可能符合輸入描述的詞語(yǔ)。

        工具欄由4個(gè)篩選器構(gòu)成。篩選器具體包括:(1) 詞性篩選器,包含名詞、動(dòng)詞、形容詞、副詞等;(2) 字?jǐn)?shù)篩選器;(3) 韻腳篩選器,基于《中華通韻》的韻腳集合;(4) 詞形篩選器,如輸入“高”可以匹配所有包含“高”字的詞。

        根據(jù)候選詞語(yǔ)語(yǔ)言的不同,篩選器也略有不同,例如對(duì)于英語(yǔ)候選詞就沒(méi)有字?jǐn)?shù)和韻腳篩選器。

        這些篩選器可以幫助用戶更快地找到目標(biāo)詞語(yǔ),例如圖2中如果用戶想找的是形容“山非常高”的詞語(yǔ),可以利用詞性篩選器去除形容詞之外其他詞性的詞語(yǔ),進(jìn)而更快地找到滿足需求的詞語(yǔ)。

        圖2 反向詞典系統(tǒng)查詞結(jié)果界面

        對(duì)于所有展示出的候選詞,系統(tǒng)為相關(guān)性較高的詞語(yǔ)添加了深淺不同的背景色,相關(guān)性越高顏色越深。此外,用戶點(diǎn)擊某個(gè)候選詞,系統(tǒng)會(huì)彈出一個(gè)浮動(dòng)窗口,該窗口會(huì)顯示該候選詞的拼音、詞典定義等基本信息,以幫助不熟悉該詞的用戶學(xué)習(xí)、了解該詞,同時(shí)判斷該詞是否為自己所需。浮動(dòng)窗口中還提供了該詞在百度漢語(yǔ)或維基詞典等其他在線詞典中的鏈接,方便用戶跳轉(zhuǎn)到相應(yīng)的查詢結(jié)果頁(yè)面以進(jìn)一步了解該詞語(yǔ)。

        本系統(tǒng)還設(shè)計(jì)了一套完善的用戶反饋系統(tǒng)。在每個(gè)詞語(yǔ)的浮動(dòng)窗口中,用戶可以通過(guò)點(diǎn)擊或來(lái)向系統(tǒng)反饋該詞是否符合輸入的描述。在頁(yè)面的最下方,用戶還可以直接反饋?zhàn)约赫J(rèn)為的符合輸入描述的詞語(yǔ),或者提出其他的意見(jiàn)和建議。這些反饋將會(huì)保存在數(shù)據(jù)庫(kù)中,幫助后續(xù)提升系統(tǒng)的性能。

        (二) WantWords基本工作流程

        圖3展示了WantWords反向詞典的系統(tǒng)運(yùn)行流程。

        圖3 WantWords的運(yùn)行流程

        在用戶輸入詞語(yǔ)的描述后,首先從“漢語(yǔ)、英語(yǔ)、英漢、漢英”四種模式中選擇一種。在前兩種模式(單語(yǔ)模式)中,如果用戶的輸入不是一個(gè)詞,那么該輸入會(huì)被送到多通道反向詞典模型中,然后為詞表中的每個(gè)候選詞計(jì)算出一個(gè)相關(guān)性分?jǐn)?shù);如果用戶的輸入是一個(gè)詞,那么候選詞的相關(guān)性分?jǐn)?shù)主要由輸入描述詞和候選詞的詞向量的相似度計(jì)算得到。

        在后兩種模式(跨語(yǔ)言模式)中,我們定義輸入描述的語(yǔ)言為源語(yǔ)言,想查找的詞語(yǔ)的語(yǔ)言為目標(biāo)語(yǔ)言。如果輸入描述的不是一個(gè)詞,我們會(huì)調(diào)用翻譯引擎將其翻譯成目標(biāo)語(yǔ)言,然后進(jìn)入目標(biāo)語(yǔ)言單語(yǔ)模式的處理流程;如果輸入的是一個(gè)詞,我們會(huì)借助跨語(yǔ)言詞典獲得輸入詞語(yǔ)的目標(biāo)語(yǔ)言定義,然后再進(jìn)入目標(biāo)語(yǔ)言的單語(yǔ)模式處理流程。

        在獲得相關(guān)性分?jǐn)?shù)后,所有的候選詞將會(huì)根據(jù)相關(guān)性分?jǐn)?shù)從高到低排列,作為輸出結(jié)果。不同的篩選器可以對(duì)輸出結(jié)果進(jìn)行調(diào)整。

        (三) WantWords的主要?jiǎng)?chuàng)新點(diǎn)

        WantWords反向詞典的創(chuàng)新點(diǎn)主要有以下三點(diǎn)。

        1. WantWords是世界首個(gè)漢語(yǔ)反向詞典,填補(bǔ)了沒(méi)有漢語(yǔ)反向詞典的空白。這一系統(tǒng)將幫助廣大漢語(yǔ)學(xué)習(xí)者和使用者緩解“舌尖現(xiàn)象”“網(wǎng)絡(luò)失語(yǔ)癥”等問(wèn)題,同時(shí)也將對(duì)提高中國(guó)的選詞性失語(yǔ)癥患者的生活質(zhì)量做出貢獻(xiàn)。

        2. WantWords也是世界上首個(gè)支持跨語(yǔ)言查詢的反向詞典,能夠大大提高第二語(yǔ)言學(xué)習(xí)者的學(xué)習(xí)效率,幫忙他們回憶、鞏固初學(xué)的詞匯,學(xué)習(xí)、了解新的詞匯,同時(shí)在他們寫作時(shí)也能起到重要的輔助作用。

        3. 依賴于我們提出的多通道反向詞典模型,WantWords反向詞典的英語(yǔ)反向查詞性能也超過(guò)了現(xiàn)有的其他英語(yǔ)反向詞典。

        四、WantWords反向詞典的現(xiàn)狀及未來(lái)

        目前WantWords的累計(jì)查詢量已經(jīng)超過(guò)1400萬(wàn)次,每天的查詢量超過(guò)20萬(wàn)次,受到了眾多文字表達(dá)者的喜愛(ài)。

        WantWords的第二版正在研發(fā)過(guò)程中,將有以下幾點(diǎn)主要更新:

        1. 支持更多類型詞語(yǔ)的查詢,包括古漢語(yǔ)詞、專業(yè)術(shù)語(yǔ)、網(wǎng)絡(luò)流行語(yǔ)等;

        2. 支持更多的篩選器,包括褒貶性、書面語(yǔ)/口語(yǔ)、常用度;

        3. 支持更豐富的查詞模式,包括根據(jù)詞語(yǔ)的字形、音調(diào)特征來(lái)查詞,以及更強(qiáng)大的近反義詞查詢功能。

        此外,我們也在研發(fā)WantWords的姐妹產(chǎn)品,可以根據(jù)用戶的現(xiàn)代漢語(yǔ)描述來(lái)查找表達(dá)相同意思的古詩(shī)文、名言名句、歇后語(yǔ)等。

        附注

        [1] https://www.douban.com/group/715666/。

        [2] https://onelook.com/thesaurus/。

        [3] https://reversedictionary.org/。

        [4] 義原在語(yǔ)言學(xué)中被定義為最小的語(yǔ)義單位,(Bloomfield 1926)一個(gè)詞語(yǔ)的語(yǔ)義可以由其被標(biāo)注的義原所表示。

        猜你喜歡
        目標(biāo)語(yǔ)言失語(yǔ)癥舌尖
        失語(yǔ)癥
        飛天(2022年5期)2022-05-18 23:02:36
        現(xiàn)當(dāng)代文學(xué)不承認(rèn)古體詩(shī)詞與文化失語(yǔ)癥之關(guān)系
        教材插圖在英語(yǔ)課堂閱讀教學(xué)中的運(yùn)用及實(shí)例探討
        中醫(yī)藥院校大學(xué)英語(yǔ)教學(xué)中“中醫(yī)文化失語(yǔ)癥”現(xiàn)象及應(yīng)對(duì)策略
        二語(yǔ)習(xí)得過(guò)程中的石化現(xiàn)象分析
        舌尖上的創(chuàng)意
        概念任務(wù)下中英雙語(yǔ)者非目標(biāo)語(yǔ)言的詞匯通達(dá)
        多媒體英語(yǔ)學(xué)習(xí)法
        失語(yǔ)癥
        国产91久久精品成人看网站 | 久久99热久久99精品| 99久久国产视频| 国产一区二区三区蜜桃av| 丝袜美腿视频一区二区| 国模无码一区二区三区| chinese国产乱在线观看| 日韩偷拍视频一区二区三区| 日本高级黄色一区二区三区| 潮喷大喷水系列无码久久精品| 亚洲暴爽av人人爽日日碰| 大伊香蕉精品视频一区| 国产亚洲一本二本三道| 情人伊人久久综合亚洲| 熟妇人妻中文字幕无码老熟妇| AV无码系列一区二区三区| 中文字幕乱码亚洲在线| 人妻夜夜爽天天爽三区麻豆av网站| 久久精品国产精品青草色艺| 精品国产亚洲av成人一区| 免费人成视频网站在线不卡| 亚洲人成无码网站在线观看| 国产主播在线 | 中文| 亚洲国产大胸一区二区三区 | 亚洲国产一区二区av| 成人网站在线进入爽爽爽| 少妇内射视频播放舔大片| 五月激情狠狠开心五月| 水蜜桃精品视频在线观看| 国产精品 人妻互换| 免费无遮挡无码视频在线观看 | 久久久一本精品99久久| 中文字幕日韩精品永久在线| 国内最真实的xxxx人伦| 国产极品美女高潮无套在线观看 | 国产精品短视频| 精品国产日产av在线| 国产欧美性成人精品午夜| 少妇的丰满3中文字幕| 国产av熟女一区二区三区老牛| 亚洲国产a∨无码中文777|