亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析人工智能在辭書編纂中的應(yīng)用
        ——以收詞立目為例

        2019-01-24 01:23:12
        新聞傳播 2018年23期
        關(guān)鍵詞:新義高頻詞辭書

        (上海理工大學(xué) 上海 200093)

        近年來,人工智能發(fā)展勢頭迅猛,對各行各業(yè)都產(chǎn)生了深遠(yuǎn)的影響,體現(xiàn)在辭書出版領(lǐng)域即人工智能技術(shù)在辭書編纂現(xiàn)代化中的應(yīng)用。眾所周知,傳統(tǒng)的辭書編纂是一項(xiàng)勞力費(fèi)時(shí)的工作,動(dòng)輒“十年磨一劍”。尤其是收詞立目,工作量巨大。因此,收詞立目的智能化對辭書編纂現(xiàn)代化至為關(guān)鍵。本文試圖對如何利用人工智能促進(jìn)收詞立目的智能化進(jìn)行初步探討。

        一、收詞立目是辭書編纂的基礎(chǔ)

        一部嚴(yán)肅編纂的辭書,基本上要經(jīng)歷“確定體例、收詞立目、編寫條目、編輯加工”等諸多知識(shí)創(chuàng)造的過程。新辭書的編纂體例確定之后,收詞立目就成了辭書編纂的基礎(chǔ)。《漢語大詞典》的編纂中,動(dòng)用了華東地區(qū)五省一市的專家學(xué)者,從1萬多部典籍(報(bào)刊)中,制作了800多萬張資料卡片,才編寫出了5000萬字、37萬多條目的皇皇巨著。這1萬多部典籍(報(bào)刊)中,《新民晚報(bào)》《魯迅全集》《四庫全書》各算1種。

        (一)資料的積累

        實(shí)際上一些中小型辭書的編寫,是在作者平時(shí)資料的積累之上實(shí)現(xiàn)的。如王均熙先生的《漢語新詞詞典》,就是其積累了大量漢語新詞的資料后,開始了這一辭書的編寫。其編寫和修訂長達(dá)二三十年。

        陳尚君先生在《我作〈辭海〉修訂》一文中也曾闡述,“1989版《辭海》,唐宋文學(xué)部分修訂費(fèi)時(shí)在半年以上。此后幾次費(fèi)時(shí)沒有這么多,因所涉問題已熟悉,且有長期關(guān)注積累?!?/p>

        可見,收詞立目是傳統(tǒng)辭書編纂的重要一環(huán),也就是說,資料的積累是辭書編纂的基礎(chǔ)。

        (二)收詞立目是知識(shí)含量巨大的工作

        在辭書的編纂中,收詞立目是一項(xiàng)曠日持久、費(fèi)力巨大的工作,也是知識(shí)含量巨大的工作。

        如以《漢語大詞典》為例,從1萬多部典籍(報(bào)刊)中,制作了800多萬張資料卡片,平均每部典籍(報(bào)刊)約收錄了800張資料卡片??紤]到這些典籍中不乏《四庫全書》《四部備要》《四部叢刊》《二十四史》《全唐詩》《全宋詞》《魯迅全集》等叢書、類書、合集等,因此一部書平均只制作800張資料卡片——其圈詞率非常之低,所制作的資料卡片質(zhì)量極佳。這與《漢語大詞典》編纂初期,有大批被閑置的專家學(xué)者參與了《漢語大詞典》的編纂工作有關(guān)。他們淵博的知識(shí)極大地提高了這批資料卡片的質(zhì)量。在國家轉(zhuǎn)入四個(gè)現(xiàn)代化建設(shè)后,專家學(xué)者紛紛回到了自己的工作崗位上?,F(xiàn)在如果再有類似項(xiàng)目,將無法召集如此多的專家學(xué)者參與其中。

        二、計(jì)算機(jī)技術(shù)的應(yīng)用對收詞立目的幫助

        計(jì)算機(jī)技術(shù)中漢字顯示技術(shù)、漢字輸入法、數(shù)據(jù)庫等技術(shù)的發(fā)展,極大地幫助了辭書編纂工作的數(shù)字化,推進(jìn)了辭書編纂現(xiàn)代化的發(fā)展。國內(nèi)多家出版社紛紛建立了各類辭書數(shù)據(jù)庫,編纂平臺(tái)的研究與應(yīng)用也十分火熱。尤其是計(jì)算機(jī)技術(shù)中統(tǒng)計(jì)與匹配技術(shù)的運(yùn)用,解決了漢語詞語的切詞問題,使?jié)h語新詞的發(fā)現(xiàn)變得不費(fèi)吹灰之力,從而解決了漢語新詞的收詞立目難題,極大地幫助了辭書編纂與修訂工作。

        例:2004年復(fù)旦大學(xué)宋國梁老師在易文網(wǎng)演示的漢語新詞確認(rèn)原理

        計(jì)算機(jī)技術(shù)解決漢語新詞的發(fā)現(xiàn)與確認(rèn),對于解決辭書編纂中新詞的例證收集與語義分析有很大的幫助,解決了新詞的收詞立目問題。然而對于辭書編纂中舊詞新義的發(fā)現(xiàn),以及漢語高頻詞如何能精選出有典型意義的例證,目前的實(shí)際發(fā)展情況仍然是困難重重。

        三、語義理解的瓶頸下收詞立目的兩大難題

        (一)難題一:舊詞新義的發(fā)現(xiàn)

        舊詞新義主要有兩類。

        一是舊詞中被遺漏的義項(xiàng)。

        數(shù)千年傳承的中華民族文化博大精深,卷帙浩繁,在已經(jīng)編纂的辭書中遺漏一些不常用的義項(xiàng),是很正常的事。在渺如煙海的典籍中檢索某個(gè)詞,檢索的結(jié)果可能會(huì)達(dá)數(shù)萬個(gè),甚至數(shù)十萬個(gè)。這數(shù)萬、數(shù)十萬個(gè)用例中,有很多的義項(xiàng)都是相同的。從中找出被遺漏的義項(xiàng),無疑是沙里淘金,需要花費(fèi)大量的功夫。以前的這類工作,主要靠學(xué)者在平時(shí)的積累與發(fā)現(xiàn)。而面對浩繁的典籍,無法再用專家學(xué)者收詞立目時(shí)的傳統(tǒng)閱讀辨識(shí)方法進(jìn)行。

        二是舊詞在新環(huán)境下產(chǎn)生的新義項(xiàng)、新的語法功能。

        在語言的發(fā)展中,很多新的義項(xiàng)的表達(dá),往往采用舊詞賦以新義的方法來實(shí)現(xiàn)。由于目前的辭書編纂平臺(tái)中缺乏語義的辨析功能,因此還無法實(shí)現(xiàn)對這類舊詞新義的發(fā)現(xiàn)。

        舊詞新義的發(fā)掘,是辭書編纂中,新辭書編纂和舊辭書修訂的一個(gè)重要部分。目前仍是靠個(gè)別專家學(xué)者日常閱讀中的發(fā)現(xiàn)進(jìn)行記錄保存。誠如陳尚君先生所言,只能靠“長期關(guān)注積累”。

        (二)難題二:如何精選出高頻詞的經(jīng)典例證

        高頻詞在語料庫中大量存在。編纂一部新的辭書,如果僅僅依靠對語料進(jìn)行切詞處理來解決高頻詞的義項(xiàng)和例證,一些高頻詞的數(shù)量將是成千上萬。篩選的工作將不堪之重。如副詞“的、地、得”,在語料庫中的數(shù)量非常多,篩選的工作量非常之大。

        從目前來說,舊詞新義的發(fā)現(xiàn)以及如何精選出高頻詞的經(jīng)典例證,仍然是辭書編纂現(xiàn)代化中還沒有逾越的一個(gè)頑障,計(jì)算機(jī)語義理解的瓶頸阻礙了辭書編纂現(xiàn)代化的發(fā)展。

        四、運(yùn)用人工智能高效率解決收詞立目難題的可行性

        與辭書出版界在詞匯的語義分析前躊躇不前相反,中文信息的計(jì)算機(jī)處理卻在高歌猛進(jìn)。2014年的中國計(jì)算機(jī)學(xué)會(huì)中文信息處理專業(yè)委員會(huì)的學(xué)生會(huì)員比賽中,已經(jīng)能對140字的微博進(jìn)行情感分析。因此運(yùn)用中文信息處理的人工智能,將之與辭書編纂平臺(tái)技術(shù)相結(jié)合,可以高效率地解決收詞立目中舊詞新義的識(shí)別難題。

        在辭書編纂現(xiàn)代化中,人工智能施展的舞臺(tái)極其廣闊。僅從收詞立目的角度來看,起碼可以在兩個(gè)方面著手,解決收詞立目的瓶頸問題。

        (一)可以幫助發(fā)現(xiàn)舊詞新義

        上面談到了在浩繁的典籍中,尋覓舊詞新義的難度在于對語義的分析。而在下面的工作流程中,添加了人工智能對語義的分析,就可以幫助實(shí)現(xiàn)舊詞新義的辨析。

        上面的處理過程中,在完成詞庫匹配并確認(rèn)為一個(gè)詞時(shí),智慧系統(tǒng)可以自動(dòng)進(jìn)行該詞的資料卡片制作。

        如果是初級的智慧系統(tǒng),在制作資料卡片時(shí)可以自動(dòng)截取出現(xiàn)該詞部分的前80字和后80字(此處80字僅為舉例說明),并自動(dòng)將這段文字中最早出現(xiàn)的表示句子完成的標(biāo)點(diǎn)符號(如句號、感嘆號、問號等)之前的文字和該標(biāo)點(diǎn)符號剔除,再剔除這段文字最后出現(xiàn)的表示句子完成的標(biāo)點(diǎn)符號之后的文字和符號。然后自動(dòng)配上該文本的篇名、作者名、章節(jié)等基本信息,即完成了該詞的資料卡片制作。

        如果是高級的智慧系統(tǒng),可以直接對該詞的前后文字進(jìn)行截取和分析,然后完成該詞資料卡片的制作。

        完成資料卡片的制作后,智慧系統(tǒng)將自動(dòng)進(jìn)行語義的辨析,隨后與已有的釋義庫進(jìn)行匹配比對。如果釋義庫已經(jīng)有了該項(xiàng)釋義,則該詞將被另行處理或直接放棄。如果釋義庫中沒有該詞(即匹配不合格),即呈送專家進(jìn)行人工干預(yù),確認(rèn)為舊詞新義后,歸入舊詞新義數(shù)據(jù)庫。

        (二)可以解決高頻詞經(jīng)典例證的精選

        之所以說辭書編纂過程中的圈詞是含金量非常高的工作,在于專家圈詞時(shí)可以自動(dòng)將一些高頻詞的出現(xiàn)忽略,但同時(shí)對具備典型義項(xiàng)的高頻詞例證非常敏感,不會(huì)疏漏。這就對模仿人工智能的智慧系統(tǒng)提出了更高的要求:既要能自動(dòng)篩選掉高頻詞中無典型語義的例證,又要能迅速抓取高頻詞中具有典型語義的例證。

        上面的處理過程中,要求智慧系統(tǒng)能夠自動(dòng)分析高頻詞在具體語境中的語義,然后自動(dòng)與釋義庫該詞條下的所有義項(xiàng)進(jìn)行語義的匹配比對。如果釋義庫中已經(jīng)有了該項(xiàng)釋義,則該詞將被另行處理或直接放棄。而解決高頻詞義項(xiàng)的精選,正是“另行處理”中的一例。例如可以補(bǔ)充某個(gè)詞的某個(gè)義項(xiàng)的更早出處,或更典型的用例。

        結(jié)語

        在計(jì)算機(jī)技術(shù)的推動(dòng)之下,辭書編纂的現(xiàn)代化已經(jīng)有了長足的發(fā)展。但應(yīng)該說,還沒有充分利用計(jì)算機(jī)學(xué)界已經(jīng)研發(fā)的新技術(shù)和新成果,導(dǎo)致在辭書編纂的某些環(huán)節(jié)中遇到了瓶頸,阻滯了辭書編纂現(xiàn)代化的進(jìn)程。而從本文的初步探討中,我們可以看到,充分運(yùn)用人工智能技術(shù)對語料進(jìn)行語義的智能分析,從而突破舊詞新義的發(fā)現(xiàn)和高頻詞經(jīng)典例證精選的兩大難題,是切實(shí)可行的??梢哉f,人工智能是新時(shí)代背景下推進(jìn)辭書編纂現(xiàn)代化的最佳利器,其發(fā)展空間極為廣闊,有待業(yè)內(nèi)人士進(jìn)一步探索。

        猜你喜歡
        新義高頻詞辭書
        CISHU YANJIU LEXICOGRAPHICAL STUDIES
        辭書研究(2022年2期)2022-03-19 23:04:19
        30份政府工作報(bào)告中的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        省級兩會(huì)上的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        大型辭書疑難字考釋七則
        28份政府工作報(bào)告中的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        省級兩會(huì)上的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        舊裙新義
        從異解看成語新義的形成
        “奇葩”一詞的發(fā)展變化及原因
        あたらずといえどもとおからず
        国产av一区二区三区天堂综合网| 中文字幕一区二区三区在线乱码| 女同亚洲一区二区三区精品久久| 亚洲精品宾馆在线精品酒店| 亚洲人午夜射精精品日韩| 国产99re在线观看只有精品| 精品一区二区三区长筒靴| 中文字幕日韩有码在线| 国产三级黄色免费网站| 久久久久久亚洲av成人无码国产| 久久久久久国产精品免费免费男同 | av无码国产在线看免费网站| av无码久久久久久不卡网站| 国产综合精品久久久久成人| 国产麻豆一区二区三区在| 国内精品久久久久影院薰衣草| 亚洲美国产亚洲av| 香蕉久久夜色精品国产| 护士人妻hd中文字幕| 国产永久免费高清在线| 国产黄色免费网站| 日韩精品成人一区二区在线观看| 水蜜桃在线观看一区二区| 国产三级精品三级| 国产在线精品一区二区不卡| 40分钟永久免费又黄又粗| 亚洲综合在线观看一区二区三区| 97久久超碰国产精品旧版| 又爆又大又粗又硬又黄的a片| 久久国产精品免费一区六九堂| 日韩av一区二区三区精品久久| 成人精品视频一区二区| 亚洲日本三级| 国产av在线观看91| 美女张开腿黄网站免费| 久久国产成人午夜av影院| 国产精品视频免费一区二区三区| 无遮挡很爽很污很黄的女同| 国产精品三级在线观看无码| 亚洲中文字幕乱码免费| 久久中文字幕亚洲综合|