亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

古漢語(yǔ)自動(dòng)分詞技術(shù)研究現(xiàn)狀及進(jìn)展

2022-10-11 01:47:10王進(jìn)張義

海南開(kāi)放大學(xué)學(xué)報(bào) 2022年3期

王進(jìn)，張義

（淮北師范大學(xué) 文學(xué)院，安徽淮北 235000）

隨著計(jì)算機(jī)輔助漢語(yǔ)史研究的不斷深入，當(dāng)前古漢語(yǔ)語(yǔ)言數(shù)據(jù)亟需基于內(nèi)容的深度挖掘，此背景下，古漢語(yǔ)自動(dòng)分詞技術(shù)的重要性愈加凸顯。然而，古漢語(yǔ)詞匯的演變并不平衡，在詞匯、語(yǔ)法等方面與現(xiàn)代漢語(yǔ)相比存在較大差異，因此，簡(jiǎn)單地將現(xiàn)代漢語(yǔ)自動(dòng)分詞技術(shù)準(zhǔn)則直接移用到對(duì)古漢語(yǔ)的處理，可能會(huì)出現(xiàn)古漢語(yǔ)詞匯判定的問(wèn)題；除此之外，受古漢語(yǔ)文本類(lèi)型、古漢語(yǔ)語(yǔ)用習(xí)慣等特殊因素的影響，采取單一的分詞方案處理古漢語(yǔ)語(yǔ)料，效果也不夠理想。

古漢語(yǔ)自動(dòng)分詞技術(shù)經(jīng)歷了基于詞典和統(tǒng)計(jì)的方法、基于機(jī)器學(xué)習(xí)的序列標(biāo)注方法等幾個(gè)早期發(fā)展階段，近年來(lái)，深度學(xué)習(xí)技術(shù)的應(yīng)用越來(lái)越廣泛，利用深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)訓(xùn)練、后處理方式成為古漢語(yǔ)自動(dòng)分詞研究的新嘗試，并表現(xiàn)出了較大優(yōu)勢(shì)。本文梳理了當(dāng)前古漢語(yǔ)分詞領(lǐng)域的相關(guān)技術(shù)方法，重點(diǎn)關(guān)注新進(jìn)展，以期理清未來(lái)的研究方向。

一、古漢語(yǔ)分詞的關(guān)鍵問(wèn)題

分詞粒度界定、歧義消解和未登錄詞處理等是漢語(yǔ)自動(dòng)分詞的關(guān)鍵問(wèn)題，具體到古漢語(yǔ)分詞中，情況可能更加復(fù)雜。要完成詞語(yǔ)的自動(dòng)切分，詞匯判別是實(shí)現(xiàn)漢語(yǔ)詞匯自動(dòng)切分的第一步。古漢語(yǔ)以單音節(jié)詞匯為主，但在單音詞向復(fù)音詞演進(jìn)過(guò)程中，古漢語(yǔ)的詞、短語(yǔ)界限并不明晰，因此，古漢語(yǔ)領(lǐng)域的分詞粒度界定較難，如果缺乏切分標(biāo)準(zhǔn)，很大程度上會(huì)造成歧義切分。另外，古漢語(yǔ)中大量存在的未登錄詞也影響著分詞的準(zhǔn)確率。

表1 古漢語(yǔ)分詞關(guān)鍵問(wèn)題及解決思路

（一）分詞粒度界定

分詞標(biāo)準(zhǔn)與分詞粒度界定直接決定了分詞詞匯的判別。古漢語(yǔ)詞匯的凝固程度在不同時(shí)段并不一致，如果沿用“結(jié)合緊密、使用穩(wěn)定”作為界定標(biāo)準(zhǔn)，由于該標(biāo)準(zhǔn)較為主觀，可能導(dǎo)致切分彈性過(guò)大。不但如此，單一的分詞標(biāo)準(zhǔn)在應(yīng)對(duì)不同的古漢語(yǔ)文本類(lèi)型時(shí)也顯得捉襟見(jiàn)肘，為解決以上問(wèn)題，于是就有了以文本類(lèi)型為導(dǎo)向的分詞標(biāo)準(zhǔn)，如辭書(shū)詞匯、佛經(jīng)詞匯、醫(yī)學(xué)詞匯、史傳詞匯等。

以文本類(lèi)型為導(dǎo)向的分詞標(biāo)準(zhǔn)，雖針對(duì)性強(qiáng)，但實(shí)際的分詞粒度仍較粗?；窦t以佛經(jīng)文獻(xiàn)詞語(yǔ)特點(diǎn)為觀照，進(jìn)一步細(xì)化詞匯標(biāo)準(zhǔn)，提出分詞單位的概念：分詞單位是從中古文獻(xiàn)中切分出來(lái)的、具有確定的語(yǔ)義和語(yǔ)法功能的詞語(yǔ)組合。除通用的詞匯，還包括“結(jié)合較緊密、搭配較固定”［1］的部分詞組，對(duì)于該定義，化文給出了具體的判定指標(biāo)，相較傳統(tǒng)單一的分詞標(biāo)準(zhǔn)而言，已在思路和操作性方面具有了較大的改進(jìn)。應(yīng)當(dāng)肯定，化文提出分詞單位的概念，使分詞時(shí)避免陷入詞和詞組的爭(zhēng)論，提升了分詞效率，但是如何科學(xué)、嚴(yán)謹(jǐn)?shù)刂贫ㄅ卸ㄖ笜?biāo)又值得深入探討，而且僅以佛教詞匯為觀照，雖一定程度上細(xì)化了分詞標(biāo)準(zhǔn)，但基于佛教詞匯特點(diǎn)的分詞標(biāo)準(zhǔn)也局限了對(duì)其他類(lèi)型詞匯的拓展性。

（二）未登錄詞處理

由于古漢語(yǔ)的詞匯總量不會(huì)再增長(zhǎng)，構(gòu)建古漢語(yǔ)未登錄詞詞典存在理論的可行性，但從現(xiàn)有的古漢語(yǔ)分詞詞典對(duì)未登錄詞收錄的現(xiàn)狀來(lái)看，覆蓋面顯然還不夠?qū)挿?，比如古人名、古地名、古機(jī)構(gòu)名、古官職名等專(zhuān)有名詞總有失落在外的情況；而且，因共時(shí)或歷時(shí)語(yǔ)言演變所造成的未登錄詞，在不同古籍中情況不一，如何清查和辨析都存在較大難度。隨著知識(shí)圖譜技術(shù)的興起，充分利用字際、詞際、字詞與語(yǔ)境等的關(guān)系，建立大規(guī)模古漢語(yǔ)知識(shí)網(wǎng)絡(luò)進(jìn)行古漢語(yǔ)相關(guān)實(shí)體推理的思路，為破解古漢語(yǔ)未登錄詞問(wèn)題提供了重要啟示。

（三）分詞歧義消解

分詞歧義消解與分詞粒度界定是一體兩面的關(guān)系——前者從分詞結(jié)果出發(fā)，倒推分詞過(guò)程中存在的問(wèn)題，而后者是前置性地給出分詞所遇問(wèn)題的解決方案。為進(jìn)行有效的分詞歧義消解，除了要關(guān)注提升分詞算法，還要從古漢語(yǔ)詞匯特點(diǎn)出發(fā)，深挖切分歧義的形成原因。舉例來(lái)說(shuō)，古漢語(yǔ)演進(jìn)過(guò)程中單音詞與復(fù)音詞使用頻率的不平衡性是導(dǎo)致古漢語(yǔ)切分歧義的顯著因素之一。由于漢字的總字?jǐn)?shù)有限，隨著語(yǔ)料長(zhǎng)度的增加，單音詞達(dá)到一定數(shù)量之后將不再有明顯的增加，而復(fù)音詞數(shù)則會(huì)有較為明顯的增長(zhǎng)。但是目前對(duì)于復(fù)音詞的衡量指標(biāo)并不統(tǒng)一，且在統(tǒng)計(jì)時(shí)也并未考慮單音詞和雙音詞出現(xiàn)的頻率，統(tǒng)計(jì)結(jié)果準(zhǔn)確性欠佳。因而，以復(fù)音詞的認(rèn)定和統(tǒng)計(jì)為關(guān)注點(diǎn)，尋求歧義消解方案，對(duì)提升分詞精度無(wú)疑也會(huì)具有較大幫助。

二、基于詞典和統(tǒng)計(jì)的分詞方法

基于詞典的分詞方法是分詞領(lǐng)域的經(jīng)典方法，切分效果主要取決于給定的分詞詞典容量、查詢和匹配詞典的方式等；基于統(tǒng)計(jì)的分詞方法通過(guò)統(tǒng)計(jì)詞語(yǔ)的成詞概率，從而實(shí)現(xiàn)詞語(yǔ)切分，因此不再受限于分詞詞典。

（一）基于分詞詞典的分詞方法

由于古漢語(yǔ)的書(shū)面語(yǔ)詞匯在某個(gè)時(shí)段內(nèi)數(shù)量相對(duì)穩(wěn)定，實(shí)現(xiàn)一個(gè)相對(duì)封閉、針對(duì)性強(qiáng)的分詞詞典存在可操作性。歐陽(yáng)劍［2］提出構(gòu)建古漢語(yǔ)斷代分詞詞典的思路：斷代詞典在時(shí)間線上可以分段，為保證詞匯使用的連續(xù)性，可以分段疊加詞典，即后一詞典在前一詞典的基礎(chǔ)上通過(guò)添加當(dāng)前朝代的新詞匯進(jìn)行累加，以古籍的時(shí)間為依據(jù)調(diào)用不同詞典。與歐陽(yáng)劍有所不同，化振紅［3］根據(jù)詞匯特點(diǎn)，構(gòu)建了不同的中古漢語(yǔ)語(yǔ)料庫(kù)，如典雅的官修正史、口語(yǔ)成分較多的佛道作品、醫(yī)農(nóng)雜著等語(yǔ)料庫(kù)。相形之下，充分關(guān)注古漢語(yǔ)文本特征，兼顧古漢語(yǔ)文本內(nèi)容與形式兩方面的中古漢語(yǔ)語(yǔ)料庫(kù)更為科學(xué)，能夠在分詞實(shí)踐時(shí)提供多角度的詞匯判定參考，歐陽(yáng)劍僅關(guān)注古漢語(yǔ)詞匯的時(shí)間，而相同時(shí)段內(nèi)文本特征可能存在較大差異，如不加區(qū)分，可能會(huì)削弱分詞的精度。

基于詞典的分詞方法，除了分詞詞典的覆蓋程度會(huì)影響切分效果外，查詢和匹配分詞詞典的方式也會(huì)限制分詞效果。邱冰、皇甫娟［4］從古漢語(yǔ)詞匯的角度出發(fā)，以一種定量、高效的方式對(duì)古代漢語(yǔ)詞匯進(jìn)行了統(tǒng)計(jì)和分析，提出基于《漢語(yǔ)大詞典》的詞典自動(dòng)查詢技術(shù)，這在理論和技術(shù)方面對(duì)基于詞典的古漢語(yǔ)自動(dòng)分詞極具借鑒意義。

文本匹配方式即查詢分詞詞典進(jìn)行匹配，較常使用的是最大匹配法（包括正向最大匹配和反向最大匹配），但最大匹配法在分詞過(guò)程中仍然僅依靠分詞詞典，并不具備詞法、句法和語(yǔ)義知識(shí)，在面對(duì)復(fù)雜的古漢語(yǔ)時(shí)易出現(xiàn)切分歧義的問(wèn)題。莫建文、鄭陽(yáng)、首照宇等［5］為了解決此問(wèn)題，采用雙字哈希結(jié)構(gòu)的字典查詢方式，在傳統(tǒng)分詞詞典構(gòu)造及相應(yīng)算法的基礎(chǔ)上，設(shè)計(jì)了一種改進(jìn)的正向最大匹配法，在分詞中實(shí)驗(yàn)中該方法對(duì)長(zhǎng)字詞分詞速度和分詞精度提升明顯，這種方法對(duì)佛經(jīng)翻譯、白話文本的切分提供了思路。

（二）融合統(tǒng)計(jì)指標(biāo)的分詞技術(shù)

為了解決基于詞典分詞容易出現(xiàn)的未登錄詞識(shí)別失誤、切分歧義等問(wèn)題，于是嘗試加入統(tǒng)計(jì)指標(biāo)來(lái)進(jìn)行歧義發(fā)現(xiàn)和歧義消解的思路被提出，如N-Gram（N元語(yǔ)法）、互信息等。融合統(tǒng)計(jì)指標(biāo)的分詞方法主要關(guān)注上下文相鄰詞匯間的搭配信息，如N-Gram認(rèn)為第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān)，與其它任何詞相關(guān)性較小，通過(guò)統(tǒng)計(jì)N和N-1的成詞概率即可；互信息是計(jì)算語(yǔ)言學(xué)中統(tǒng)計(jì)兩個(gè)變量相互依賴程度的一種度量，其基于概率分布來(lái)計(jì)算相關(guān)性，與互信息結(jié)合密切的有似然比、信息熵等算法。

將上述思想落實(shí)到分詞實(shí)踐層面的諸如黃建年［6］將詞典分詞與N-Gram結(jié)合，設(shè)計(jì)出農(nóng)業(yè)古籍自動(dòng)分詞系統(tǒng)，在《齊民要術(shù)》等13本農(nóng)業(yè)古籍文本上進(jìn)行測(cè)驗(yàn)，分詞精度達(dá)85%以上。段磊等［7］在《史記》語(yǔ)料上采用基于頻率、互信息等6種方法進(jìn)行了自動(dòng)抽取雙字詞能力的對(duì)比實(shí)驗(yàn)，結(jié)果驗(yàn)證了每種的分詞方法所具有的獨(dú)特優(yōu)勢(shì)。邢付貴、朱廷劭［8］通過(guò)互聯(lián)網(wǎng)先構(gòu)建一個(gè)古漢語(yǔ)基礎(chǔ)詞典，再結(jié)合N-Gram、互信息等新詞發(fā)現(xiàn)方法構(gòu)建一個(gè)候補(bǔ)詞典，最后利用正向最大匹配實(shí)現(xiàn)分詞，然而通過(guò)互聯(lián)網(wǎng)所構(gòu)建的基礎(chǔ)詞典僅保證了數(shù)據(jù)量，但忽略了詞典的針對(duì)性，其后的候補(bǔ)詞典中這一問(wèn)題也未能解決，且沒(méi)有考慮到歧義詞的處理，局限性明顯。

除了單純從分詞技術(shù)視角出發(fā)，徐潤(rùn)華、梁社會(huì)［9］針對(duì)較小規(guī)模且主題與內(nèi)容存在較大差異的先秦語(yǔ)料特點(diǎn)，將《左傳》與之注疏進(jìn)行了文本對(duì)齊，構(gòu)造注疏詞典，再基于最大匹配分詞算法進(jìn)行分詞，F(xiàn)1值達(dá)89%。姜欣等［10］同樣在考察了古漢語(yǔ)文本特征后，將《茶經(jīng)》作為實(shí)驗(yàn)語(yǔ)料，利用樹(shù)剪枝算法進(jìn)行了分詞實(shí)驗(yàn)，提出了一種基于似然比統(tǒng)計(jì)的古漢語(yǔ)分詞方法。

基于詞典和融合統(tǒng)計(jì)指標(biāo)的分詞方法具有實(shí)現(xiàn)簡(jiǎn)單、效率高等優(yōu)勢(shì)，但該方法對(duì)詞典的完備程度、字典查詢匹配效率以及統(tǒng)計(jì)算法的依賴程度較高，當(dāng)面向復(fù)雜的古漢語(yǔ)文本時(shí)，不具備推理能力或泛化能力較差的分詞方法逐漸不能滿足研究的需求。

三、基于機(jī)器學(xué)習(xí)的序列標(biāo)注方法

基于機(jī)器學(xué)習(xí)的自動(dòng)分詞方法其基本思想是讓計(jì)算機(jī)學(xué)習(xí)和模擬人將漢字序列劃分成詞序列的過(guò)程。目前古漢語(yǔ)分詞領(lǐng)域常用的序列標(biāo)注方法主要有基于條件隨機(jī)場(chǎng)（Conditional Random Field，CRF）、基于馬爾可夫模型（Markov Model，MM）等。

（一）基于條件隨機(jī)場(chǎng)模型

CRF是經(jīng)典的判別式模型，在自然語(yǔ)言處理任務(wù)中應(yīng)用廣泛。石民、李斌、陳小荷［11］作為國(guó)內(nèi)較早采取機(jī)器學(xué)習(xí)方法進(jìn)行古漢語(yǔ)分詞研究的學(xué)者，他們提出將分詞和詞性標(biāo)注進(jìn)行歸一化以減小錯(cuò)誤傳播帶來(lái)的影響，并在字符分類(lèi)基礎(chǔ)上加入音韻學(xué)知識(shí)，以此訓(xùn)練CRF模型，對(duì)《左傳》進(jìn)行了有效實(shí)驗(yàn)。在石民等人的技術(shù)思路下，王嘉靈［12］首先統(tǒng)計(jì)了《漢書(shū)》中的用詞情況，據(jù)此擬定了《漢書(shū)》分詞規(guī)范，然后在分詞實(shí)踐中將古漢語(yǔ)多元特征與CRF模型結(jié)合運(yùn)用，最終得到的實(shí)驗(yàn)結(jié)果顯示增加字符分類(lèi)和上古音二元特征模板所取得的效果最優(yōu)。嚴(yán)順［13］使用漢語(yǔ)詞匯的語(yǔ)言學(xué)規(guī)則構(gòu)建CRF特征模板對(duì)經(jīng)典先秦典籍語(yǔ)料進(jìn)行詞性標(biāo)注探索，F(xiàn)1值達(dá)到90.33%。王珊珊等［14］利用詞性特征、字符類(lèi)別、語(yǔ)音特征等，對(duì)《詩(shī)經(jīng)》進(jìn)行了自動(dòng)分詞實(shí)驗(yàn)，得到了97.39%的F1值，然后再將獲取的特征模板結(jié)合統(tǒng)計(jì)方法構(gòu)建組合特征模板，通過(guò)CRF模型訓(xùn)練得到先秦典籍的詞性自動(dòng)標(biāo)注算法模型，以此便實(shí)現(xiàn)了一個(gè)多任務(wù)模型，極大地提升了分詞效率。

與前述方法有所不同，沈勤中、周?chē)?guó)棟等［15］忠實(shí)于漢語(yǔ)詞匯是漢字的組合結(jié)構(gòu)這一語(yǔ)言學(xué)定義，采用CRF模型給出了基于字位置的成詞概率特征的分詞方法。沈文的思路是將分詞過(guò)程類(lèi)比為對(duì)漢字字符的隨機(jī)分類(lèi)過(guò)程，據(jù)CRF模型實(shí)現(xiàn)對(duì)句中每個(gè)漢字的標(biāo)記，并最終將標(biāo)記結(jié)果通過(guò)概率進(jìn)行分類(lèi)組合，從而轉(zhuǎn)化成分詞結(jié)果。王曉玉、李斌［16］的做法與沈勤中等人類(lèi)似，同樣從字符分類(lèi)和字符標(biāo)記出發(fā)，區(qū)別在于王曉玉、李斌利用了已有字典的標(biāo)記，以此作為CRF模型的分詞特征，最終達(dá)到F值90%以上的較高分詞水平。黃水清等［17］也利用CRF模型進(jìn)行訓(xùn)練，得到不同特征模板下的分詞模型，并完成了對(duì)先秦典籍自動(dòng)分詞模型的研究，模型表現(xiàn)出色。陸啟文［18］將逆向最大匹配法與CRF模型結(jié)合對(duì)《左傳》進(jìn)行了分詞實(shí)驗(yàn)，取得了一定的效果，但作為其基線的分詞方法較單一，而且其構(gòu)建的分詞詞典并不全，在進(jìn)行分詞方法的比較時(shí)，也只選用了基于詞典的分詞法與基于條件隨機(jī)場(chǎng)的分詞法做了對(duì)比，實(shí)驗(yàn)的說(shuō)服力有限。

充分關(guān)注古漢語(yǔ)作品中豐富的語(yǔ)言信息和詞語(yǔ)特征的注疏語(yǔ)料，無(wú)疑也會(huì)對(duì)古漢語(yǔ)分詞幫助巨大。梁社會(huì)、陳小荷［19］基于《孟子》語(yǔ)料，率先采用CRF模型對(duì)先秦文獻(xiàn)進(jìn)行自動(dòng)分詞，并實(shí)現(xiàn)了利用注疏文獻(xiàn)的自動(dòng)分詞方法。徐潤(rùn)華［20］的做法則更進(jìn)一步，其先行構(gòu)建了《左傳》注疏詞典，在CRF模型上加入注疏文獻(xiàn)并充分考慮古漢語(yǔ)信息處理特殊性的分詞方法，對(duì)相似領(lǐng)域的古漢語(yǔ)分詞極具借鑒作用。表2總結(jié)了目前古漢語(yǔ)分詞領(lǐng)域基于CRF模型的相關(guān)方法。

表2 基于CRF模型的古漢語(yǔ)分詞

根據(jù)上表，從所據(jù)語(yǔ)料來(lái)看，當(dāng)下古代漢語(yǔ)的分詞大多針對(duì)通行古漢語(yǔ)文本語(yǔ)料，而且語(yǔ)言特征的選擇對(duì)分詞效果影響較大；就分詞技術(shù)來(lái)說(shuō)，以CRF為底層模型，充分融合其他機(jī)器學(xué)習(xí)的技術(shù)，在同類(lèi)分詞實(shí)驗(yàn)中表現(xiàn)優(yōu)異，但是對(duì)于目前有待提高的古籍?dāng)?shù)字化程度現(xiàn)狀而言，基于機(jī)器學(xué)習(xí)技術(shù)的分詞技術(shù)，其分詞效果受制于人工標(biāo)注語(yǔ)料質(zhì)量和數(shù)量，因此局限性也很明顯。

近年來(lái)，隨著與分詞相關(guān)的聯(lián)合模型出現(xiàn)，該模型增加了下游的多個(gè)子任務(wù)間的信息交互性，提升了分詞的準(zhǔn)確率，但同時(shí)也使得模型越來(lái)越復(fù)雜，如自動(dòng)分詞-詞性標(biāo)注聯(lián)合模型。

（二）基于馬爾科夫模型

馬爾科夫模型（Markov Model，MM）假設(shè)漢語(yǔ)的字符串組合是遵循某種可測(cè)的概率模型，將文本的字符串抽象成一個(gè)隨機(jī)過(guò)程，以共現(xiàn)信息作為衡量漢字間結(jié)合緊密度的指標(biāo)，即字與字之間的相鄰共現(xiàn)率越高，生成固定詞的可能性就越大。從一定程度上來(lái)說(shuō)，利用統(tǒng)計(jì)的思想來(lái)處理古漢語(yǔ)詞匯，在應(yīng)對(duì)語(yǔ)料數(shù)量、語(yǔ)用情況較為固定的古漢語(yǔ)文本時(shí)能夠取得不錯(cuò)的效果，但如果語(yǔ)料龐雜，則情況可能并非如此。錢(qián)志勇、周建忠等［21］結(jié)合馬爾科夫模型的衍生模型——隱馬爾可夫（Hidden Markov Model，HMM）模型，以全切分的方式對(duì)《楚辭》語(yǔ)料進(jìn)行一體化分詞，并取最大概率作為最后的結(jié)果，該方法能夠視為HMM模型應(yīng)用到古漢語(yǔ)領(lǐng)域的較好嘗試。

四、基于深度神經(jīng)網(wǎng)絡(luò)的分詞

深度神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)人腦功能和行為基本特征的模擬，構(gòu)建大量簡(jiǎn)單的神經(jīng)元，然后再讓其廣泛連接，構(gòu)成一個(gè)復(fù)雜的非線性網(wǎng)絡(luò)，其不需要人為地先給出特征表示，也能夠自動(dòng)學(xué)習(xí)上下文特征，因而具備了出色的知識(shí)泛化能力和自學(xué)習(xí)能力，在關(guān)注語(yǔ)言特征、保留句子信息等方面表現(xiàn)更優(yōu)。

（一）古漢語(yǔ)分詞常用的基礎(chǔ)網(wǎng)絡(luò)模型

古漢語(yǔ)分詞領(lǐng)域常用的神經(jīng)網(wǎng)絡(luò)模型如LSTM模型（Long Short-Term Memory，LSTM）、BERT模型（Bidirectional Encoder Representation from Transformers，BERT）等。LSTM模型最大的優(yōu)勢(shì)在于可以獲得更遠(yuǎn)距離上的上下文內(nèi)在聯(lián)系。然而，LSTM模型單向的學(xué)習(xí)特征，導(dǎo)致容易遺漏后向傳到前向的一些文本語(yǔ)義信息。為了解決這個(gè)問(wèn)題，BiLSTM（雙向LSTM）模型被提出，雙向遞歸神經(jīng)網(wǎng)絡(luò)的每個(gè)訓(xùn)練序列都有一組前向和后向遞歸神經(jīng)網(wǎng)絡(luò)，具有這種結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)輸出層的每個(gè)點(diǎn)都可以清楚地獲得完整的過(guò)去和未來(lái)上下文信息。因此，BiLSTM模型可以更好地捕捉古漢語(yǔ)文本中上下文體現(xiàn)的語(yǔ)義依賴。在分詞任務(wù)中，該模型能夠關(guān)注各種附帶語(yǔ)義特征的詞匯之間的相互關(guān)聯(lián)，此特點(diǎn)在應(yīng)對(duì)古漢語(yǔ)上下文信息較離散的情況時(shí)優(yōu)勢(shì)明顯。

BERT模型是基于Transformer的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型，該模型可以獨(dú)立地在各個(gè)大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練，然后針對(duì)特定的領(lǐng)域以及任務(wù)進(jìn)行微調(diào)，使其適用最終的目標(biāo)任務(wù)，這些顯著的特點(diǎn)在應(yīng)對(duì)古漢語(yǔ)較為復(fù)雜多變的句式、語(yǔ)法、詞匯情況時(shí)表現(xiàn)更優(yōu)。使用BERT模型進(jìn)行古漢語(yǔ)分詞主要有以下幾種范式：在預(yù)訓(xùn)練階段融合古漢語(yǔ)詞匯特征的神經(jīng)網(wǎng)絡(luò)模型；或者利用已有模型針對(duì)古漢語(yǔ)分詞任務(wù)的語(yǔ)料進(jìn)行微調(diào)。

（二）融合特征的神經(jīng)網(wǎng)絡(luò)模型

古漢語(yǔ)分詞的預(yù)訓(xùn)練通常以字詞的語(yǔ)義、偏旁、注音、注解等為基本單位。HAN等［22］提出了將字根融入BiLSTM-CRF模型的古文處理方法，其通過(guò)對(duì)古文字符和對(duì)應(yīng)的字根分別進(jìn)行字向量的訓(xùn)練，在唐代墓志銘測(cè)試語(yǔ)料上實(shí)驗(yàn)得到81.34%的F1值。除了字本身信息外，位置信息和外部知識(shí)庫(kù)也被研究人員嘗試使用，為了解決訓(xùn)練集中未登錄詞問(wèn)題，研究者嘗試引入外部知識(shí)庫(kù)與深度學(xué)習(xí)相結(jié)合。在此之上的改進(jìn)方案可進(jìn)一步包括引入注意力機(jī)制或外部知識(shí)，如詞典、拼音、字根等。Zhang等［23］融入詞典外部知識(shí)之后，將分詞準(zhǔn)確率提升了2%左右。

值得注意的是基于深度學(xué)習(xí)模型的分詞效果與訓(xùn)練集的質(zhì)量呈正相關(guān)，古文語(yǔ)料處理、人工標(biāo)注與計(jì)算機(jī)輔助標(biāo)注的訓(xùn)練集對(duì)古漢語(yǔ)分詞效果影響較大，但是目前正缺乏大規(guī)模純凈的古文數(shù)據(jù)集。

（三）預(yù)訓(xùn)練和后處理方式

預(yù)訓(xùn)練和后處理方式指在已有預(yù)訓(xùn)練模型之上融入指定特征，微調(diào)模型參數(shù)或重新訓(xùn)練的過(guò)程。其優(yōu)勢(shì)之一在于可以靈活根據(jù)領(lǐng)域需要加入訓(xùn)練特征。Ma等［24］基于深度學(xué)習(xí)的預(yù)訓(xùn)練、超參調(diào)優(yōu)，僅使用一個(gè)簡(jiǎn)單的Bi-LSTM模型，使得分詞準(zhǔn)確率平均提升0.78%，通過(guò)錯(cuò)誤分析發(fā)現(xiàn)2/3的錯(cuò)誤來(lái)自未登錄詞。程寧、李斌等［25］以BERT作為模型輸入，后接Bi-LSTM對(duì)古文進(jìn)行特征提取，在輸出層接入CRF構(gòu)建出了適用于古文詞法分析架構(gòu)模型，在《左傳》《夢(mèng)溪筆談》《閱微草堂筆記》《清史稿》等語(yǔ)料中進(jìn)行古漢語(yǔ)分詞實(shí)驗(yàn)，F(xiàn)1值達(dá)到85.73%。俞敬松、魏一等［26］將非參數(shù)貝葉斯模型與BERT模型結(jié)合，通過(guò)實(shí)驗(yàn)給出了一種無(wú)監(jiān)督多階段迭代的訓(xùn)練分詞框架，在數(shù)據(jù)集上實(shí)驗(yàn)F1值達(dá)到95.32%。

目前面向古漢語(yǔ)的預(yù)訓(xùn)練模型多是基于通用語(yǔ)料訓(xùn)練，在遷移到特定領(lǐng)域的文本時(shí)效果有限，難以達(dá)到在通用語(yǔ)料上的性能水準(zhǔn)。為解決此問(wèn)題，通過(guò)將古漢語(yǔ)相關(guān)知識(shí)加入神經(jīng)網(wǎng)絡(luò)模型，實(shí)現(xiàn)綜合任務(wù)模型的做法逐漸顯示出優(yōu)勢(shì)。

在古漢語(yǔ)領(lǐng)域，構(gòu)建高質(zhì)量無(wú)監(jiān)督古文數(shù)據(jù)集，訓(xùn)練面向古文自然語(yǔ)言處理任務(wù)的預(yù)訓(xùn)練模型，對(duì)高效開(kāi)展古文信息處理下游任務(wù)研究具有重要意義。胡韌奮、李紳、諸雨辰［27］將BERT模型融入文本的語(yǔ)義和語(yǔ)音信息進(jìn)行古漢語(yǔ)知識(shí)表示，在近8億字的《四庫(kù)全書(shū)》語(yǔ)料上進(jìn)行訓(xùn)練，實(shí)現(xiàn)了自動(dòng)斷句模型，在詩(shī)、詞、古文上的F1值分別達(dá)到99%、95%和92%。

關(guān)注到GuwenBERT模型將BERT遷移至古漢語(yǔ)時(shí)，由于語(yǔ)料規(guī)模、簡(jiǎn)繁轉(zhuǎn)換等因素的限制，效果有限。王東波、劉暢、朱子赫等［28］將基于深層語(yǔ)言模型的古漢語(yǔ)知識(shí)表示方法引入到古漢語(yǔ)的處理中以適用復(fù)雜的古漢語(yǔ)表達(dá)習(xí)慣，基于BERT模型對(duì)《四庫(kù)全書(shū)》語(yǔ)料進(jìn)行預(yù)訓(xùn)練，設(shè)計(jì)了面向《左傳》語(yǔ)料的古文自動(dòng)分詞、斷句標(biāo)點(diǎn)、詞性標(biāo)注和命名實(shí)體識(shí)別4個(gè)下游任務(wù)。經(jīng)過(guò)實(shí)驗(yàn)，其所設(shè)計(jì)的預(yù)訓(xùn)練模型SikuBERT和SikuRoBERTa在全部4個(gè)下游任務(wù)中的表現(xiàn)均超越其他預(yù)訓(xùn)練模型，體現(xiàn)了該預(yù)訓(xùn)練模型具有較強(qiáng)的學(xué)習(xí)能力和泛化能力。表3展示了近幾年結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型的漢語(yǔ)處理方法。

表3 結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型的漢語(yǔ)處理方法

五、研究展望

基于深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)訓(xùn)練技術(shù)在面向較為復(fù)雜的古漢語(yǔ)時(shí)顯示出了較大的優(yōu)勢(shì)，將深度學(xué)習(xí)技術(shù)與古漢語(yǔ)處理深度融合必然是未來(lái)的發(fā)展趨勢(shì)。但是還應(yīng)看到，目前在深度神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行訓(xùn)練的古漢語(yǔ)文本大多屬于通行領(lǐng)域，當(dāng)面向特殊領(lǐng)域時(shí)，效果可能會(huì)降低；而且古漢語(yǔ)分詞語(yǔ)料是制約技術(shù)發(fā)展的因素之一，因此，未來(lái)古漢語(yǔ)自動(dòng)分詞研究還需要著力于以下三個(gè)方面：

（一）擴(kuò)充古漢語(yǔ)分詞語(yǔ)料數(shù)據(jù)量

目前古漢語(yǔ)領(lǐng)域公開(kāi)可用的標(biāo)注集和評(píng)測(cè)集極少且覆蓋面也不廣，語(yǔ)料的缺乏導(dǎo)致通用模型的適應(yīng)性存在嚴(yán)重局限，因而，亟待擴(kuò)充古漢語(yǔ)分詞語(yǔ)料的數(shù)據(jù)量，同時(shí)在此基礎(chǔ)上加大力度進(jìn)行大規(guī)模古漢語(yǔ)形式化知識(shí)庫(kù)的建設(shè)。

（二）構(gòu)建適應(yīng)不同領(lǐng)域的古漢語(yǔ)分詞模型

當(dāng)前在通行領(lǐng)域文本上訓(xùn)練的古漢語(yǔ)分詞模型表現(xiàn)出了較好的效果，但是精度難以進(jìn)一步提升，而且在面向特殊領(lǐng)域文本時(shí)效果有限，因此，需要考慮到古漢語(yǔ)不同的文本特征，利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建適應(yīng)不同領(lǐng)域的古漢語(yǔ)分詞模型。

（三）開(kāi)發(fā)一體化模型

忽略古漢語(yǔ)處理各子任務(wù)間的關(guān)聯(lián)，單一進(jìn)行子任務(wù)研究，所用的管道模型存在錯(cuò)誤傳播和模型間信息共享不暢的問(wèn)題。因此，同時(shí)處理各子任務(wù)的聯(lián)合模型也是未來(lái)研究方向之一，如開(kāi)發(fā)集成自動(dòng)分詞、自動(dòng)句讀、古文相似度計(jì)算、古文知識(shí)圖譜一體的模型。

古漢語(yǔ)自動(dòng)分詞技術(shù)直接關(guān)乎機(jī)輔漢語(yǔ)史研究的深入程度。在充分關(guān)注古漢語(yǔ)本體特征的前提下，借助先進(jìn)的預(yù)訓(xùn)練模型，不斷提升古漢語(yǔ)自動(dòng)分詞能力，不管對(duì)于漢語(yǔ)史研究還是計(jì)算機(jī)工程技術(shù)的發(fā)展而言，無(wú)疑都具有積極地探索性作用。