亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能模擬辭例歸納的初步測試

        2021-09-24 11:44:33莫伯峰邱煒琦謝澤澄
        漢語言文學(xué)研究 2021年3期
        關(guān)鍵詞:古文字人工智能

        莫伯峰 邱煒琦 謝澤澄

        摘? 要:古文字考釋中的辭例歸納法,其實是綜合了經(jīng)驗和理性兩個方面共同作用的一種詞義推定方法。人工智能語言模型現(xiàn)在主要模擬了人類經(jīng)驗主義的方法,并在日常語言處理方面取得了比較好的效果。如果將此類模型運用于古文字領(lǐng)域來模擬辭例歸納,也定會有所助益。我們基于Bert模型,用《四庫全書》作為特定語料對模型進行了訓(xùn)練。以《上博簡》(1-9)中2103個字為測試對象,模擬專家的部分辭例歸納能力,預(yù)測被遮蔽起來的文字。在總數(shù)23157的備選字符中,前300預(yù)測正確率達到59%,前100預(yù)測正確率達到46%,前50預(yù)測正確率達到38%,前10預(yù)測正確率達到25%,前5預(yù)測正確率達到20%??梢姡斯ぶ悄茉诠盼淖诸I(lǐng)域也具有類似人腦憑借語言經(jīng)驗進行辭例歸納的能力。同時,結(jié)果也提示,必須結(jié)合理性主義方法,才能實現(xiàn)完整的辭例歸納能力,建立相關(guān)的知識庫必不可少。

        關(guān)鍵詞:古文字;辭例歸納;人工智能

        辭例歸納是考釋古文字的一種主要方法,前輩學(xué)者早有論述。唐蘭在1935年寫就的《古文字學(xué)導(dǎo)論》中稱其為“推勘法”,將其列為考釋古文字的第三種方法,認為“有許多文字是不認識的,但尋繹文義的結(jié)果,就可以認識了”{1}。黃德寬則更明確地提出,辭例歸納“是依據(jù)未識字出現(xiàn)的語言環(huán)境,通過對一系列辭例分析、比較、歸納,從而達到釋字目的的方法”{2}。可以說,從事古文字考釋的學(xué)者,有意識或無意識都一定會用到這種方法。

        而實際上,辭例歸納不僅是古文字領(lǐng)域常用到的一種方法,只要使用語言,伴隨著語言輸出和語言理解,這種方法時刻都被運用著(只不過在其他領(lǐng)域,通常不把它單獨提出來命名為“辭例歸納”)。這種“尋繹文義”“分析、比較、歸納”的過程在人類大腦里自主地進行著,顯得如此自然而然,甚至很多時候我們都沒有意識到它的存在。

        只有當(dāng)計算機程序復(fù)現(xiàn)“辭例歸納”的時候,我們才會注意到大腦的這一機能。比如計算機的聯(lián)想輸入法,只要輸入一些內(nèi)容,就能自動預(yù)測接下來可能會搭配的文字,這種預(yù)測其實就是根據(jù)之前的語境和辭例歸納出來的,也就是機器的“辭例歸納”。而如果使用語音輸入法,輸入的只是一組語音,輸入法常常能根據(jù)這些語音擬測出我們想輸入的文字,這種擬測也是依靠語音創(chuàng)設(shè)的語境和辭例而實現(xiàn)的。這一過程可以與人類的語言理解進行比較:聆聽并記錄他人的講話,我們之所以可以把話語轉(zhuǎn)寫為文字,其實也就是在大腦中進行了“語音識別”的工作。所以,我們的大腦時時刻刻都在進行著辭例歸納。

        現(xiàn)在,人工智能在處理日常語言方面,已經(jīng)具有了非常強的辭例歸納能力。效果最為突出的是谷歌的Bert,基于Bert的模型在機器閱讀理解頂級水平測試SQuAD1.1中表現(xiàn)驚人,在兩個衡量指標(biāo)上均超越人類。在SWAG常識推理任務(wù)中,Bert模型也同樣超越了人類水平{1}。那么將這種已經(jīng)較為成熟的技術(shù)應(yīng)用于古文字領(lǐng)域,來模擬古文字專家的辭例歸納,結(jié)果會怎樣?前景會如何?這就是本文將要討論的問題。

        一、辭例歸納法是一種復(fù)合性方法

        在開始讓計算機模擬辭例歸納法之前,我們需要先論述一下,對于計算機而言,辭例歸納到底意味著什么?比較機器與人腦辭例歸納的過程,或許有助于更為深入地理解這一方法。對于人腦而言,通過辭例來限定詞義的范圍,看起來好像是一項很單純的工作,仿佛由辭例我們本就應(yīng)該能夠卡定詞義,不需要再做什么細致的討論。但實際上,當(dāng)用機器來模擬這一過程的時候,就會發(fā)現(xiàn)這一過程并不那么“單純”。通過機器模擬我們可以發(fā)現(xiàn),所謂的“辭例歸納”由兩項能力聯(lián)合組成,所以它是一種復(fù)合的方法。下面用一個簡單的例子作以闡述:

        《三字經(jīng)》中的第一句“人之初,性本*”。*所掩藏的文字會是什么?相信絕大部分的人都會脫口而出*是“善”。為什么“人之初,性本*”的語境直接就能把我們帶向“善”這個答案?如果再稍微思考一下,荀子還提出過“性惡論”,難道*是“惡”的可能性就一定要比“善”小嗎?由此可見,在根據(jù)辭例進行預(yù)測時,我們首先用到的是語感。在計算語言學(xué)中,將這稱為經(jīng)驗主義的方法。

        《三字經(jīng)》中的第二句“性相近,習(xí)相*”。*號所掩藏的文字會是什么?假設(shè)我們從沒讀過這一句,沒有任何語感可以借鑒。但相信大家稍稍琢磨,仍然可以猜出*表示“遠”,因為通過語境分析可以知道*代表一個與“近”意義相反的詞語,而根據(jù)我們腦中已有的常識和語言知識,便知道*是“遠”了。在計算語言學(xué)中,將這稱為理性主義的方法。{2}

        經(jīng)驗主義和理性主義的劃分實際上反映了人腦思維的一般規(guī)律——“快思維”和“慢思維”兩套系統(tǒng)各有千秋,各司其職③。大腦在處理各種信息時,常會將這兩套系統(tǒng)綜合地加以運用。當(dāng)有大量經(jīng)驗可以依靠時,通常會用快思維來迅速處理。當(dāng)沒有太多經(jīng)驗可資利用,或者經(jīng)驗主義處理的結(jié)果不佳時,又會轉(zhuǎn)向用理性的知識加以處理。

        由此可見,在進行辭例歸納時,其實使用了兩種截然不同的方法。經(jīng)驗主義會根據(jù)語感迅速縮小語義的范圍,而理性主義則會進一步檢查這些結(jié)果是否合乎理性。經(jīng)過多輪次反復(fù),最后確定答案。古文字考釋中的辭例歸納,有的主要根據(jù)經(jīng)驗主義的方法得出結(jié)果,比如唐蘭《古文字學(xué)導(dǎo)論》中論述“推勘法”提到的例子:金文中“眉壽”的考釋主要就是通過經(jīng)驗主義的方法得出的{4}。時至今日,我們依然不能完全確定“眉”的含義,所以主要是依靠古代文獻培養(yǎng)出的語感得出了這一結(jié)果。有的主要根據(jù)理性主義的方法得出結(jié)果,比如黃德寬《古文字學(xué)》中論述“辭例歸納法”提到的例子:甲骨文中的“■”字,后世文獻缺乏與之類似的辭例可以利用,難以完全憑借語感來推測,更多憑借了卜辭的上下語境,依靠常識和語言、歷史知識進行推定{5}。

        計算語言學(xué)在相當(dāng)長一段時間里,曾將理性主義作為處理語言一種首選的方法,喬姆斯基的一系列語言學(xué)成就都與這種思想有關(guān)。這種思路在實際運用中效果總是不如人意,難以達到實用的級別,不過經(jīng)過長期的研究卻也產(chǎn)生了一套可以表示語言知識的方法,建立了一些語言知識庫,比如WordNet、MindNet、HowNet等。而現(xiàn)在計算機進行自然語言處理,更多用到的是經(jīng)驗主義的方法,以概率模型而非確定性模型來處理語言,通過大量的語料讓模型具有類似人類語感的能力,以詞向量的方式來表示詞語間的關(guān)系,這種方法在很多日常領(lǐng)域已經(jīng)達到了實用級別的效果,只是在某些專業(yè)領(lǐng)域離人的水平還有一定距離。本次測試通過人工智能來模擬辭例歸納法,主要也是用了經(jīng)驗主義的方法,沒有利用專家的知識加以輔助,所以是一個很初步的測試。

        二、辭例歸納的理論依據(jù)、條件和效度

        無論是人腦還是機器,為什么可以根據(jù)已知的辭例推導(dǎo)出未知的信息?這種機制與語言的性質(zhì)有著密切的關(guān)聯(lián)。索緒爾指出:“語言是形式而不是實質(zhì)?!Z言是一種符號,它的意義產(chǎn)生于符號系統(tǒng)內(nèi)部的關(guān)系中?!眥1}這就告訴我們,決定語言中某個符號意義的,并不是符號本身,而是語言本身的系統(tǒng)。因此,辭例歸納模型背后其實蘊含了一套語言系統(tǒng)。過去理性主義曾希望由專家來搭建整套語言系統(tǒng),目標(biāo)是一套確定性模型,但效果有限。經(jīng)驗主義希望通過統(tǒng)計的方法,建立起統(tǒng)計語言模型,現(xiàn)在來看效果還比較理想。

        要實現(xiàn)辭例歸納需要哪些條件呢?過去常提到的是“語境”?!罢Z境”是一種顯性的條件,所以很容易被察覺。比如一個“花”字,如果沒有語境的限定,它到底表示“花朵”,還是表示“花費”,是無法確定的。語境越豐富,才可以越精確地歸納出詞義。

        但在古文字考釋領(lǐng)域,大家所能利用的“語境”常常是相同的,就是有限的一些例句,卻常常歸納出不一樣的結(jié)果,這是什么原因?qū)е碌哪??這就涉及辭例歸納的另外兩個條件——知識和語感,也就是前文所講到的理性主義方法和經(jīng)驗主義方法各自的產(chǎn)物,它們都是隱性的條件,藏在我們的大腦里。

        “知識”既包括領(lǐng)域知識,也包括常識。比如黃德寬論證辭例歸納法時曾提出:“所謂語言環(huán)境,這里除指未識字所出現(xiàn)的上下文關(guān)系,還包括它鑄刻的位置和使用的場合?!眥2}“鑄刻的位置和使用的場合”為什么能對詞義卡定起到作用?背后就是有領(lǐng)域知識作支撐。而常識更是處處都在運用,比如林沄在論證辭例歸納法時所舉的例子:“(一個字)和雪字連用,就進一步又可以把紅、綠等可能性也排除在外”③,之所以能把“紅、綠”排除在外,就是根據(jù)一般性常識所得出的?,F(xiàn)在,涉及“知識”方面的內(nèi)容,人工智能主要是通過建立知識庫來表達,本質(zhì)是把人腦里的知識搬出來,用結(jié)構(gòu)化的方式加以表示,以便計算機能加以利用。針對古文字及古漢語方面的知識庫現(xiàn)在還非常少,所以這方面的工作還難以開展。如果希望計算機從數(shù)據(jù)中自動挖掘知識,也有一些初步的成果。但這涉及對語義的理解,理解是人工智能最大的難題,所有人工智能現(xiàn)在都還沒達到“理解”這個層面,難以跨越“語義鴻溝”,因此效果還比較有限。

        “語感”是一種通俗的說法,實質(zhì)上是個體對語言這種符號的系統(tǒng)性掌握。黃德寬論述“辭例”時認為:“(辭例即)詞語按一定規(guī)則組成的序列,在這個序列中,各個詞語是有機聯(lián)系的,存在著相互依存和制約的關(guān)系?!眥4}這里所說的“相互依存和制約的關(guān)系”表現(xiàn)出來就是“語感”。這種“依存和制約”關(guān)系是由語言的系統(tǒng)性所決定的,在一個系統(tǒng)里面,任何元素之間都會有依存和制約關(guān)系。這種“依存和制約”關(guān)系并不是確定的:一方面,語言系統(tǒng)本身總處在變動之中,所以這種“依存和制約”關(guān)系只能是概率性的。另一方面,個體對語言系統(tǒng)的掌握也存在差異,由此帶來“語感”的不同,也就導(dǎo)致了辭例歸納出來的結(jié)果不盡相同。人類習(xí)得語感是一種很自然的過程,在一種語言環(huán)境中浸染久了,接觸的語料足夠多了,便自然具有了這種語言的語感。常常使用現(xiàn)代漢語,就具有了現(xiàn)代漢語的語感。充分接觸古代漢語材料,才會具有古代漢語的語感{5}。本質(zhì)上這即是一種概率統(tǒng)計的方法?,F(xiàn)在,人工智能模擬人的語言能力,主要方向便是用概率統(tǒng)計的方法模擬這種語感。基于大量語料的訓(xùn)練,讓計算機模型對語言符號的系統(tǒng)性產(chǎn)生某種認識,類似人類具有的語感。但是機器的這種語感跟人類的語感還有一些本質(zhì)性差異,在本次測試中也有反映,下文我們將結(jié)合具體實例進行論述。

        需要指出的是,辭例歸納并不能完全精確地卡定語義范圍,也就是說它的效度是有限的,過去很多學(xué)者都已經(jīng)充分地意識到這一點。比如唐蘭就提出:“雖然由這種方法認得的文字,不一定可信,但至少這種方法可以幫助我們找出認識的途徑?!眥1}林沄也認為:“辭例這一客觀存在往往只是使我們在考慮不識的字為何字時,能有一定的范圍,但并不是縮小到唯一的可能?!眥2}所以,只是單獨利用辭例歸納法,一定不能夠得到明確的結(jié)果,無論是古文字學(xué)家還是人工智能,都是同樣的道理。這也就決定本次測試的結(jié)果,必然也就只是劃定一個大的意義范圍,而不可能完全卡死。

        由上述分析可知,語言的性質(zhì)決定可以某種程度上模擬辭例歸納。但辭例歸納所需要的條件眾多,所以機器現(xiàn)在還不能夠?qū)崿F(xiàn)完整的辭例歸納。而且,辭例歸納法的有限效度也決定它不可能獨立完成文字考釋。但是與人類相比,機器的信息處理能力無疑要強大很多,所以即使僅基于單方面的模擬,也可以期待在某些方面上達到人腦難以取得的效果。

        三、模型的建立和測試過程

        基于以上的認識,我們嘗試用計算機建立了辭例歸納的語言模型,并對《上海博物館藏戰(zhàn)國楚竹書》(1—9)[以下簡稱《上博簡》(1—9)]中的字詞進行了遮蔽和預(yù)測,以模擬古文字學(xué)家辭例歸納的過程。以下對模型的建立和測試過程進行一個簡要的介紹:

        (一)模型建立的過程——從通用語感到古代漢語語感。我們選用了已經(jīng)非常成熟的Bert作為基礎(chǔ),利用《四庫全書》語料對其進行訓(xùn)練,實現(xiàn)讓其具有古代漢語語感。具體訓(xùn)練過程如下:

        首先,我們對《四庫全書》數(shù)據(jù)進行了歸一化。包括文本長度的設(shè)置,最大設(shè)置為32個字符(這是因為在預(yù)處理階段統(tǒng)計《四庫全書》文庫時,發(fā)現(xiàn)大部分的句子長度都在這個范圍內(nèi))。最終,處理得到的《四庫全書》共計約1900萬行文本,達數(shù)億字符,統(tǒng)計漢字字符類別達23157個,外加五個特殊字符[PAD]、[UNK]、[CLS]、[SEP]和[MASK]。

        其次,我們進行了模型具體設(shè)計。模型主要參數(shù)如下,編碼層共計有四個隱藏層構(gòu)成,隱藏層中self-attention注意力機制設(shè)置attention head數(shù)量為4,中間特征數(shù)為1024。同時,相關(guān)的dropout概率均設(shè)置為0.1。考慮到我們的場景比較定制化,我們直接從頭開始訓(xùn)練Bert模型。在訓(xùn)練過程中,我們采用的訓(xùn)練策略是,隨機預(yù)測句子中15%的單詞。同時,在需要預(yù)測的單詞中,將其中80%替換成[mask]標(biāo)注,表示這個字符被掩蓋。10%的單詞被隨機替換成其它單詞,而10%的單詞保持不變。

        最后,基于NVIDIA Tesla V100顯卡訓(xùn)練環(huán)境,我們耗時45個小時完成了Bert模型的訓(xùn)練,并進行快速部署和推理。

        (二)模型測試的過程——以《上博簡》(1—9)為測試對象?!渡喜┖啞罚?—9)是出土文獻中研究比較充分的一種材料,已經(jīng)具有較為成熟的釋文文本,材料性質(zhì)也代表了古代漢語中比較典型的一種語料。因此,此次測試我們將其作為測試對象。

        首先,我們對《上博簡》(1—9)釋文進行了預(yù)處理。由于辭例歸納的對象是詞而非字,因此,釋文語料是以詞本位建立起來的?!渡喜┖啞罚?—9)釋文中的原形字被直接剔除掉,僅保留了文字所代表的詞。

        其次,我們對《上博簡》(1—9)中字詞進行預(yù)處理。包含同一文字的不同例句被提取出來(最多11例),并以[MASK]來替換這個將要被預(yù)測的文字。我們不以單一例句作為預(yù)測單位,是因為太過單一的語境難以取得良好的效果,如果說人類可以根據(jù)單一例句進行預(yù)測,那也更多是基于知識推導(dǎo)而實現(xiàn)的。

        最后,我們讓模型根據(jù)例句來預(yù)測被[MASK]遮擋的文字。預(yù)測范圍設(shè)定為300,超出300即表示預(yù)測失敗。

        四、模型測試的初步結(jié)果及分析

        模型建立好之后,我們對《上博簡》(1—9)中的2103個字詞進行了預(yù)測。在字符總數(shù)為23157的預(yù)測范圍內(nèi),基本有效的預(yù)測結(jié)果見上表。

        通過對各種結(jié)果進行的初步分析,可總結(jié)為以下五種類型:

        (一)預(yù)測正確的詞,特別是進入結(jié)果前5的詞大多數(shù)是常用詞,比如“于、為、一、萬、上、下、不、世”等。以下選摘兩則為示例:

        1.“于”排第一位

        *** 于 ***

        0000 : 及其見[MASK]外則物取之也

        0001 : 關(guān)雎以色喻[MASK]禮

        0002 : 以琴瑟之悅擬好色之愿以鐘鼓之樂反納[MASK]禮不亦能改乎

        0003 : 伐木實咎[MASK]己也

        0004 : 文王曰文王在上[MASK]昭[MASK]天

        0005 : 子曰為上可望而知也為下可述而識也則君不疑其臣臣不惑[MASK]君

        0006 : 詩云淑愼爾止不愆[MASK]儀

        0007 : 故言則慮其所終行則稽其所敝則民愼[MASK]言而謹[MASK]行

        0008 : 君奭云昔在上帝割申觀文王德其集大命[MASK]厥身

        0009 : 昆龜筮猶弗知而況[MASK]人乎

        0010 : 關(guān)雎之改樛木之時漢廣之智鵲巢之歸甘棠之報綠衣之思燕燕之情蓋曰動而皆賢[MASK]其初者也

        "SUCCESS, 于 at 0"

        TOP 5 Prediction:于之其也乎

        2.“為”排第二位

        *** 為 ***

        0000 : 民性固然甚貴其人必敬其位悅其人必好其所[MASK]惡其人者亦然

        0001 : 將大車之囂也則以[MASK]不可如何也

        0002 : 敬宗廟之禮以[MASK]其本秉文之德以[MASK]其業(yè)肅雍顯相

        0003 : 子曰[MASK]上可望而知也[MASK]下可述而識也則君不疑其臣臣不惑于君

        0004 : 子曰民以君[MASK]心君以民[MASK]體

        0005 : 詩云誰秉國成不自[MASK]正卒勞百姓

        0006 : 子曰上好仁則下之[MASK]仁也爭先

        0007 : 此言之玷不可[MASK]

        0008 : 子曰宋人有言曰人而無恒不可[MASK]卜筮也

        0009 : 凡性[MASK]主物取之也

        0010 : 凡見者之謂物快于己者之謂悅物之勢者之謂勢有[MASK]也者之謂故

        "SUCCESS, 為 at 1"

        TOP 5Prediction:之為不以其

        (二)一些不是特別常用的詞,由于辭例較充分,效果也較好,比如“患、稽、儉、哀、噓”等。以下選摘兩則為示例:

        3.“患”排第三位

        *** 患 ***

        0000 : 青蠅知[MASK]而不知人

        0001 : 民之有慼[MASK]也上下之不和者其用心也將何如

        0002 : 凡憂[MASK]之事欲任樂事欲后

        0003 : 用智之疾者[MASK]為甚

        0004 : 無勉于民而治亂不[MASK]

        0005 : 舉天下之名無有廢者舉天下之明王明君明士庸有求而不[MASK]

        0006 : 唯七年文王訪于尚父曰我左[MASK]右難吾欲達中持道

        0007 : 民皆有決離之心而又有相[MASK]害之志是謂重殃重殃而賢者能以其六藏之守取親焉是謂六親之約

        "SUCCESS, 患 at 2"

        TOP 5Prediction:人右患之以

        4.“稽”排第四位

        *** 稽 ***

        0000 : 故言則慮其所終行則[MASK]其所敝則民慎于言而謹于行

        0001 : 耈老二拜[MASK]首曰朕茲不敏既得聞道恐弗能守

        0002 : 奪民時以土功是謂[MASK]

        0003 : 如欲察一仰而視之俯而揆之毋遠求托于身[MASK]之

        0004 : 守一以為天地[MASK]

        0005 : 聞之曰一言而終不窮一言而有眾一言而萬民之利一言而為天地[MASK]

        0006 : 如欲察一仰而視之俯而揆之毋遠求托于身[MASK]之

        0007 : 守一以為天地[MASK]

        0008 : 聞之曰一言而終不窮一言而有眾一言而萬民之利一言而為天地[MASK]

        "SUCCESS, 稽 at 3"

        TOP 5 Prediction:之也頓稽為

        (三)少量辭例不是很豐富的詞,也預(yù)測出來了,但排名較靠后,比如“丕、嚴、倉”等。以下選摘兩則為示例:

        5.“丕”排第三十八位

        *** 丕 ***

        0000 :[MASK]顯維德

        SUCCESS, 丕 at 38

        TOP 50 Prediction:王不周文昭曰有以顯天未弗光章明也先維○何武德無乃相莫思其而子威湯后大必之永康丕徐日烈爾三又方崇來福

        6.“嚴”排第四十三位

        *** 嚴 ***

        0000 : 聞之曰從政有七幾獄則興威則民不道[MASK]則失眾猛則無親罰則民逃好刑則民作亂

        0001 : 丘聞之臧文仲有言曰君子強則蹪威則民不道[MASK]則失眾猛則無親好刑則不祥好殺則作亂

        0002 : 仰天事君[MASK]恪必信

        SUCCESS, 嚴 at 43

        TOP 50 Prediction:行刑恪忠敬臣亂之子驕正不誠惡謹所恭寬順仁也然是長出善死王至事慎淫儉過孝者大信理義誅心輕嚴公奢徳道亡失

        (四)預(yù)測結(jié)果不佳主要有兩種情況:第一種情況是生僻字詞,比如“■、■、■、■、■、■”等。以下選摘兩則為示例:

        7.“■”未排入前三百

        *** ■ ***

        0000 : 有其為人之節(jié)節(jié)如也不有夫柬柬之心則[MASK]

        FAIL, not in top 300

        8.“■”未排入前三百

        *** ■ ***

        0000 : 初六旅瑣瑣此其所取[MASK]

        FAIL, not in top 300

        (五)第二種情況是辭例較少,比如“專、業(yè)、習(xí)、京”等。以下選摘兩則為示例:

        9.“?!蔽磁湃肭叭?/p>

        *** 專 ***

        0000 : 王曰如四與五之間載之[MASK]車以上乎

        FAIL, not in top 300

        10.“業(yè)”未排入前三百

        *** 業(yè) ***

        0000 : 敬宗廟之禮以為其本秉文之德以為其[MASK]肅雍顯相

        0001 : 獨居而樂有內(nèi)[MASK]者也

        0002 : [MASK][MASK]天地紛紛而多彩物

        FAIL, not in top 300

        通過上述初步結(jié)果及分類來看,我們認為可以形成以下一些基本認識:

        第一,古代漢語領(lǐng)域的人工智能辭例歸納會比現(xiàn)代漢語領(lǐng)域困難很多。

        從初步測試結(jié)果來看,可以明顯看到兩種語料的效果差異。這是由二者的多方面差別決定的。首先,古代漢語語料背后所反映的語言系統(tǒng)性質(zhì)并不單一。現(xiàn)代漢語是共時平面的同一語言系統(tǒng),是大家都在使用的“活語言”。而模型所用到的《四庫全書》語料是歷時平面的語料集合,即使都屬于文言系統(tǒng),但背后所反映的語言系統(tǒng)也會因為時間差異而導(dǎo)致性質(zhì)有所不同。更何況在這么長時間里形成的語料,背后的知識系統(tǒng)也一定發(fā)生了很大的變化。這就決定了困難程度更大,如不加甄別地使用一定會影響效果。其次,古代漢語領(lǐng)域的字詞關(guān)系等遠比現(xiàn)代漢語領(lǐng)域復(fù)雜。古代漢語中的異體字、假借字、古今字等現(xiàn)象是現(xiàn)代漢語領(lǐng)域幾乎不會遇到的,這些都帶來了新的挑戰(zhàn)。最后,古代漢語用字非常豐富,而且數(shù)據(jù)不均衡現(xiàn)象非常突出。我們所用《四庫全書》包含了23157個不同字符,已經(jīng)是一個較大的字庫了,但是仍無法包含《上博簡》(1—9)中的所有用字,而且古代漢語中所用到的文字遠超23157這個數(shù)量,很多古代字典辭書的文字數(shù)量都遠超于此。同時,不僅文字數(shù)量很多,而且這些字符的使用頻率極不均衡,大量的生僻字詞對于我們?nèi)祟惗允菍W(xué)習(xí)的難點,對于人工智能而言也同樣是一大難點。

        第二,機器的“語感”與人類的“語感”存在明顯的差異。

        從以上的測試結(jié)果來看,模型所排列的預(yù)測結(jié)果會與人類專家的結(jié)果有明顯差異。機器的各種預(yù)測結(jié)果之間缺乏聯(lián)系顯得比較凌亂,而人類專家的結(jié)果之間一定會有某種聯(lián)系讓這些結(jié)果具有可解釋性。我們認為,二者的差異是它們對于語言系統(tǒng)的表示方式差別決定的,機器的語感是一種“純粹”的語感,而人類的語感是經(jīng)過理性提煉之后的混合語感。人工智能處理語言的基礎(chǔ)是詞向量,按照詞向量的方式來理解詞語間的關(guān)系,是將詞語映射到高維空間,只能大致確定詞語間的基本關(guān)系(見圖1)。而人腦除了上述這種模糊判定,還有很多明確的關(guān)系判定,而且具有清晰的層級關(guān)系(見圖2)。這種差異也就決定了機器的預(yù)測結(jié)果之間有時缺乏關(guān)聯(lián)性,而人腦的預(yù)測結(jié)果之間一定是有某種關(guān)聯(lián)的。

        第三,辭例豐富的文字,模型預(yù)測會起到很好的輔助作用。

        辭例豐富卻難以敲定的字詞,是古文字研究中的重點和難點。由于辭例豐富,常??梢詫ζ湓~義有一定認識,但是要與后代具體的字詞聯(lián)系上,需要有語感作支撐。這方面模型依靠強大的計算能力,具有一定的優(yōu)勢,如果能通過模型縮小備選詞的范圍將會大有禆益。

        五、今后的發(fā)展方向

        從以上的結(jié)果和認識出發(fā),可以明顯感覺到,只是基于語感無法全面地模擬辭例歸納,必須要有“知識”的介入才能讓這項工作發(fā)揮出較好的效果。而這也是現(xiàn)階段學(xué)界對于人工智能發(fā)展的一種共識。中國科學(xué)院院士張鈸提出:“第三代AI其發(fā)展的思路是,把第一代的知識驅(qū)動和第二代的數(shù)據(jù)驅(qū)動結(jié)合起來,通過同時利用知識、數(shù)據(jù)、算法和算力等4個要素,構(gòu)造更強大的AI。”③長期從事計算語言學(xué)研究的馮志偉在很多場合反復(fù)強調(diào):“應(yīng)當(dāng)把基于語義規(guī)則的理性主義方法和基于大數(shù)據(jù)的經(jīng)驗主義方法結(jié)合起來。”{4}語言學(xué)家陸儉明更是認為:“現(xiàn)在的狀況是漢語本體研究成果沒能在人工智能研究中派上用場。”{1}

        如何將語言文字研究所獲得的知識與人工智能相結(jié)合是一個很大的命題,從本測試的任務(wù)目標(biāo)來看,如果把詞語間的層次和意義關(guān)系加以確定,將會極大優(yōu)化計算機辭例歸納的效果。比如“今”字:

        11.“今”排第五位

        *** 今 ***

        0000 : 子羔曰如舜在[MASK]之世則何若

        0001 : [MASK]紂為無道昏屠百姓桎約諸侯天將誅焉

        0002 : 六二王臣蹇蹇非[MASK]之故

        0003 : 仲弓曰[MASK]之君子

        0004 : 仲弓曰[MASK]之君子愎過攼責(zé)難以入諫

        0005 : 孔子曰[MASK]之君子宜

        0006 : [MASK]汝相夫子有臣萬人道汝使老其家

        0007 : 不止曰小人之告將斷于[MASK]日

        0008 : [MASK]君王或命毋現(xiàn)此則仆之罪也

        0009 : 太宰謂陵尹君入而語仆之言于君王君王之瘙從[MASK]日以瘥

        0010 : 君王之病將從[MASK]日以已

        "SUCCESS, 今 at 4"

        TOP 10 Prediction:之人子曰今也我其是君

        模型雖然在第五位就推測出了“今”字這一結(jié)果,但從前十結(jié)果來看,這種預(yù)測與我們?nèi)四X預(yù)測的結(jié)果存在比較大的差異。一方面,“之”是古漢語中最常出現(xiàn)的字,所以模型幾乎所有的預(yù)測中都會排名靠前,而人類在預(yù)測時,如果發(fā)現(xiàn)被預(yù)測詞辭例較少最先排除的也許就是“之”。本質(zhì)上也就是用理性來對經(jīng)驗進行干預(yù),這是模型還可以進一步優(yōu)化的一方面。另一方面,人腦的結(jié)果一定會把同義詞排在相近的預(yù)測位置,假如已經(jīng)感覺“今”表示時間類的含義可能是正確的答案,那么我們一定會把“現(xiàn)昔向曩徂”等其他表示時間的詞排列在基本相同的預(yù)測位置,這樣就可以把一些生僻詞的排序大大提前。當(dāng)然,如果要讓計算機實現(xiàn)這一目標(biāo),前提是要建立一套完整的古漢語字詞知識庫。只要有這樣的知識庫,相信模型的預(yù)測結(jié)果將極大地優(yōu)化。

        因此,從初步測試的結(jié)果來看,模型也許還難以直接對古文字考釋發(fā)揮太大的作用。但是測試的結(jié)果卻也給我們今后的發(fā)展指明了方向,即經(jīng)驗和知識的結(jié)合是人工智能模擬辭例歸納的必然要求。對于辭例歸納這項任務(wù)而言,如何將知識和經(jīng)驗進行結(jié)合,已經(jīng)有了一些比較清晰的發(fā)展思路。

        綜上,通過初步測試,我們認為人工智能可以在某方面模擬辭例歸納,但要完整模擬辭例歸納,則必須建立相關(guān)的知識庫。假以時日,人工智能模擬辭例歸納對古文字研究提供重大助力也是可以期待的。

        (全文承廈門大學(xué)張俊松先生審讀指正,在此深表感謝。)

        猜你喜歡
        古文字人工智能
        我校新增“人工智能”本科專業(yè)
        釋古文字中的“杪”及相關(guān)字
        古文字“刀”“匕”混同——兼説舊釋“從宜從刀”之字
        簡帛(2019年2期)2019-11-03 09:12:36
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        古文字“丙”與古器物“房”
        人工智能與就業(yè)
        《國語》故訓(xùn)與古文字
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        從古文字的角度看李陽冰對《說文》的說解
        下一幕,人工智能!
        一区二区三区国产美女在线播放| 午夜性刺激免费看视频| 内射干少妇亚洲69xxx| 欧美性巨大╳╳╳╳╳高跟鞋| 日韩精品无码久久一区二区三| 精品高清国产乱子伦| 亚洲少妇一区二区三区老| 久久亚洲国产精品五月天| 一区二区三区人妻在线| 很黄很色的女同视频一区二区 | 日韩国产自拍成人在线| 精品国产一区二区三区性色| 国产在热线精品视频| 亚洲国产韩国欧美在线| 久久久久久久尹人综合网亚洲| 国产一区二区在线观看av| 亚洲天堂二区三区三州| 妺妺窝人体色www看美女| 国产suv精品一区二区69| 久久精品韩国日本国产| 日韩精品一区二区三区影音视频| 欧洲美熟女乱av亚洲一区| 久久久久人妻精品一区蜜桃| 9lporm自拍视频区| 久久水蜜桃亚洲av无码精品麻豆| 亚洲视频在线视频在线视频| 国产三级国产精品国产专区50| 成人亚洲一区二区三区在线| 蜜臀久久99精品久久久久久小说| 国产日韩久久久久69影院| 亚洲精品国产av成拍色拍 | 久久久久88色偷偷| 无码任你躁久久久久久| 日韩不卡av高清中文字幕| 久久精品国产亚洲AⅤ无码剧情| 国产精品自拍视频免费观看| 成年女人免费v片| 无码毛片视频一区二区本码| 中文字幕无码免费久久99| 久久精品国产亚洲av网在| 国产欧美精品aaaaaa片|