亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

先秦文獻(xiàn)信息處理的最新力作

2022-05-22 11:43:00匡海波譚昕

文教資料 2022年4期

匡海波譚昕

摘要：北京大學(xué)出版社出版的《基于注疏文獻(xiàn)的〈孟子〉信息處理研究》一書(shū)是對(duì)《孟子》及其注疏進(jìn)行信息處理的研究。本文從文獻(xiàn)自身、橫向比較、利用注疏三個(gè)層面來(lái)分析梁著的基本框架、研究思路和研究?jī)r(jià)值，并介紹該書(shū)如何創(chuàng)新地借用中文信息處理方法進(jìn)行古文獻(xiàn)信息處理。

關(guān)鍵詞：注釋文獻(xiàn) 中文信息處理古文獻(xiàn)信息處理

古文獻(xiàn)信息處理作為數(shù)字人文的重要研究領(lǐng)域之一，近年來(lái)尤為引人注目。古文獻(xiàn)信息處理對(duì)于我國(guó)古代典籍整理傳承和古代歷史語(yǔ)言文化研究，其重要性不言而喻。如何利用現(xiàn)代化的計(jì)算機(jī)方法，拓寬古文獻(xiàn)研究思路，則同樣是古漢語(yǔ)學(xué)界、語(yǔ)言學(xué)學(xué)界以及計(jì)算機(jī)學(xué)界都非常關(guān)心的研究課題。

二十世紀(jì)七八十年代，古文獻(xiàn)信息處理起步于古文獻(xiàn)電子化[1]，經(jīng)過(guò)三四十年的發(fā)展已經(jīng)有了眾多研究成果，但仍存在不小的進(jìn)步空間[2-3]，主要表現(xiàn)在大量傳世及出土文獻(xiàn)沒(méi)有進(jìn)行數(shù)字化，經(jīng)過(guò)信息處理的文獻(xiàn)只能說(shuō)“九牛一毛”。另外，目前的古文獻(xiàn)數(shù)字化往往只是淺層處理，尚不能為古漢語(yǔ)研究提供更深層次的數(shù)據(jù)支撐。基于計(jì)算語(yǔ)言學(xué)方法的古漢語(yǔ)語(yǔ)法、語(yǔ)義、語(yǔ)用研究還比較少見(jiàn)。實(shí)際上，如果只是對(duì)古籍進(jìn)行單純數(shù)字化，則大有“暴殄天物”

之嫌。

就先秦傳世經(jīng)典的信息處理而言，這些經(jīng)典的注疏文獻(xiàn)實(shí)際上是最好的語(yǔ)言材料。所謂“注疏文獻(xiàn)”，其實(shí)是后人由于去古已遠(yuǎn)，無(wú)法對(duì)古文獻(xiàn)進(jìn)行直接閱讀，而所作的隨文注釋?！白⑹琛卑_萬(wàn)象，包含文字、音韻、訓(xùn)詁等各方面內(nèi)容?；谧⑹栉墨I(xiàn)的古文獻(xiàn)信息處理是學(xué)者對(duì)于古文獻(xiàn)注疏的一種延續(xù)和繼承，只是我們有了現(xiàn)代化的信息處理手段，理應(yīng)做得比前人更細(xì)更好。而基于注疏文獻(xiàn)進(jìn)行信息處理的主要難點(diǎn)在于，如何從非結(jié)構(gòu)化的注疏文獻(xiàn)中抽取并識(shí)別我們想要的語(yǔ)言知識(shí)。

梁社會(huì)博士撰寫(xiě)的《基于注疏文獻(xiàn)的〈孟子〉信息處理研究》（北京大學(xué)出版社2021年出版，以下稱“梁書(shū)”）分為五章[4]，屬于利用注疏對(duì)古文獻(xiàn)專書(shū)進(jìn)行信息處理的研究。我們將從文獻(xiàn)自身、橫向比較、利用注疏三個(gè)層面來(lái)分析梁著的基本框架、研究思路和研究?jī)r(jià)值，并介紹梁書(shū)如何創(chuàng)新地借用中文信息處理方法進(jìn)行古文獻(xiàn)信息處理，以期為后續(xù)工作者提供思考。

一、文獻(xiàn)自身軸：《孟子》深層次信息處理

上文有所表述，大量古文獻(xiàn)沒(méi)有進(jìn)行信息處理，但急于對(duì)大規(guī)?？鐣r(shí)代古文獻(xiàn)進(jìn)行批量處理，難免“眉毛胡子一把抓”。同時(shí)，古文獻(xiàn)信息處理的研究范式本身就尚未形成，不同時(shí)代文獻(xiàn)的處理方法是否具有遷移性，還需要深入研究。因此，針對(duì)某一部斷代專書(shū)進(jìn)行研究，理所應(yīng)當(dāng)。

梁書(shū)選取了《孟子》作為信息處理對(duì)象。據(jù)其介紹，其大致理由有三：一是《孟子》及其注疏在十三經(jīng)注疏中篇幅較長(zhǎng)（《孟子》約4萬(wàn)字，《孟子注疏》約27萬(wàn)字，《孟子集注》約12.1萬(wàn)字，《孟子正義》約33.3萬(wàn)字），相較于大多數(shù)十三經(jīng)文獻(xiàn)便于統(tǒng)計(jì)和機(jī)器學(xué)習(xí);二是針對(duì)《孟子》的自動(dòng)分詞、詞性標(biāo)注、詞義消歧研究尚屬空白，亟待進(jìn)行拓荒;三是《孟子》流傳甚廣，語(yǔ)言風(fēng)格明顯，修辭使用廣泛，專于邏輯說(shuō)理，便于進(jìn)行語(yǔ)言風(fēng)格計(jì)算。這三條理由是完全站得住腳的。

梁書(shū)中對(duì)《孟子》的處理流程包括自動(dòng)分詞，詞性標(biāo)注，語(yǔ)義消歧，風(fēng)格計(jì)算等。經(jīng)過(guò)這一系列的縱向處理，所得到的《孟子》語(yǔ)料屬于“熟語(yǔ)料”，具有了相當(dāng)?shù)难芯績(jī)r(jià)值，不僅便于一般用戶進(jìn)行理解閱讀、智能化搜索等，同時(shí)也可以協(xié)助古漢語(yǔ)專家進(jìn)行詞匯、語(yǔ)法等研究，或?qū)Α睹献印芳捌渌?jīng)進(jìn)行橫向比較。

自動(dòng)分詞是古文獻(xiàn)信息處理的基礎(chǔ)性工作之一。梁書(shū)利用規(guī)則方法、統(tǒng)計(jì)模型以及注疏文獻(xiàn)三種方法對(duì)《孟子》進(jìn)行了自動(dòng)分詞實(shí)驗(yàn)。根據(jù)梁書(shū)報(bào)告，規(guī)則方法分詞結(jié)果F值最高達(dá)0.946。統(tǒng)計(jì)模型（采用條件隨機(jī)場(chǎng)模型）分詞結(jié)果F值最高達(dá)0.982。其中，統(tǒng)計(jì)模型特別考慮了將漢字的聲韻調(diào)及部首信息加入學(xué)習(xí)模板進(jìn)行對(duì)比實(shí)驗(yàn)，具有很強(qiáng)的針對(duì)性。實(shí)驗(yàn)表明，漢字的聲母信息對(duì)分詞結(jié)果有所提高，但再加入韻母、聲調(diào)、部首信息反而造成了分詞結(jié)果的精度失落。另外，利用《孟子》傳世注疏對(duì)孟子進(jìn)行分詞是本書(shū)的一大特色（第4節(jié)詳述），其分詞結(jié)果F值最高可達(dá)0.928，實(shí)驗(yàn)結(jié)果相比其余兩種方法并沒(méi)有較大差距。

先秦文獻(xiàn)所使用的語(yǔ)言屬于上古漢語(yǔ)，與現(xiàn)代漢語(yǔ)在詞類分布方面有所不同。梁書(shū)根據(jù)《孟子》及其他先秦文獻(xiàn)的語(yǔ)言詞匯特點(diǎn)，設(shè)計(jì)了13大類43小類的詞性類別，同時(shí)特別強(qiáng)調(diào)，先秦漢語(yǔ)較現(xiàn)代漢語(yǔ)普遍存在詞語(yǔ)兼類和活用現(xiàn)象[5]，應(yīng)當(dāng)是詞性標(biāo)注實(shí)驗(yàn)的重點(diǎn)難點(diǎn)。梁書(shū)拋開(kāi)詞語(yǔ)兼類與活用的區(qū)分不論，據(jù)其統(tǒng)計(jì)，《孟子》全文詞語(yǔ)兼類及活用比例一共高達(dá)22.24%。梁書(shū)采用條件隨機(jī)場(chǎng)模型進(jìn)行詞性標(biāo)注實(shí)驗(yàn)，詞語(yǔ)F值最高達(dá)0.941。同時(shí)，梁書(shū)對(duì)標(biāo)注錯(cuò)誤進(jìn)行了統(tǒng)計(jì)分析，發(fā)現(xiàn)名詞動(dòng)詞混淆是《孟子》詞性標(biāo)注錯(cuò)誤的主要來(lái)源，占比達(dá)45.58%。這個(gè)結(jié)果也佐證了我們對(duì)于上古漢語(yǔ)的大致印象，即名詞動(dòng)詞的活用比較普遍且寬泛。此外，梁書(shū)還創(chuàng)造性地使用注疏信息對(duì)詞性標(biāo)注結(jié)果進(jìn)行校正，具體情況見(jiàn)第4節(jié)。

在分詞和詞性標(biāo)注的基礎(chǔ)上，梁書(shū)對(duì)《孟子》中最常見(jiàn)的10個(gè)多義詞，即“之”“而”“以”“有”等進(jìn)行了詞義消歧。與現(xiàn)代漢語(yǔ)相比，這些多義單字詞詞頻占比更高，義項(xiàng)也更為豐富（多則12項(xiàng)，少則4項(xiàng)），因此，數(shù)據(jù)量更小更稀疏，消歧難度更大，但也是理解先秦文獻(xiàn)的關(guān)鍵之一。梁書(shū)分別采用了條件隨機(jī)場(chǎng)模型，詞義消歧樹(shù)兩種算法進(jìn)行詞義消歧實(shí)驗(yàn)。在窗口長(zhǎng)度為2，且綜合考慮詞語(yǔ)詞性、讀音等語(yǔ)言特征的情形下，封閉測(cè)試正確率平均為86.36%與87.95%，開(kāi)放測(cè)試正確率平均為84.76%與85.54%，消歧效果尚佳且兩種算法結(jié)果基本接近。

上文介紹，先秦文獻(xiàn)數(shù)量眾多，體裁豐富，據(jù)李零[6]介紹，大致有八大類別。其中，不同體裁的先秦文獻(xiàn)語(yǔ)言風(fēng)格存在差異，即便是同一體裁，不同文獻(xiàn)之間也或多或少存在著差異。相較于其他先秦文獻(xiàn)而言，人們總的感覺(jué)是《孟子》修辭使用廣泛，專于邏輯說(shuō)理。根據(jù)這一特點(diǎn)，梁書(shū)首先對(duì)《孟子》的文本特征進(jìn)行了大規(guī)模的細(xì)致統(tǒng)計(jì)，統(tǒng)計(jì)內(nèi)容十分豐富，包括篇幅，用字頻率，用字熵值，用詞頻率，平均詞長(zhǎng)，句型分布等，從各層面對(duì)《孟子》的語(yǔ)言風(fēng)格進(jìn)行了系統(tǒng)統(tǒng)計(jì)，并與其他先秦文獻(xiàn)做了比較，具體情況見(jiàn)第3節(jié)。另外，梁書(shū)分析《孟子》說(shuō)理磅礴，其原因之一是大量使用排比句，因此對(duì)《孟子》進(jìn)行了排比句這樣的修辭格識(shí)別實(shí)驗(yàn)。其識(shí)別算法融合了最長(zhǎng)公共子序列求解，相似度計(jì)算、句珠遍歷等算法，封測(cè)測(cè)試和開(kāi)放測(cè)試的F值達(dá)0.61與0.59，這項(xiàng)研究為古漢語(yǔ)修辭格自動(dòng)識(shí)別進(jìn)行了拓荒。

二、橫向比較軸：《孟子》與其他先秦文獻(xiàn)信息處理的比較

以十三經(jīng)為代表的先秦文獻(xiàn)，其篇幅長(zhǎng)短及語(yǔ)言風(fēng)格是具有差異的。即便是同樣的體裁，例如《孟子》和《論語(yǔ)》，也存在著語(yǔ)言風(fēng)格差異。梁書(shū)介紹，《孟子》語(yǔ)言風(fēng)格特點(diǎn)“喻體廣泛，方式多樣”，這是文獻(xiàn)學(xué)和古漢語(yǔ)研究已有的確論。但文獻(xiàn)差異是否體現(xiàn)為語(yǔ)言計(jì)算結(jié)果的不同，這種差異對(duì)于信息處理的方法遷移又具有多大影響，哪些文獻(xiàn)具有獨(dú)特的處理方法，這都是極具價(jià)值的文獻(xiàn)橫向研究課題。

基于上述考慮，梁書(shū)牢牢抓住《孟子》的語(yǔ)言特點(diǎn)，在與其他先秦文獻(xiàn)的信息處理結(jié)果比對(duì)中，展開(kāi)研究。

梁書(shū)采用《漢語(yǔ)大詞典》《孟子譯注附錄詞表》《論語(yǔ)詞表》《左傳詞表》四種詞表對(duì)《孟子》進(jìn)行了機(jī)械分詞，分詞結(jié)果F值分別為0.863，0.935，0.946，0.909，得出了《孟子譯注附錄詞表》效果最佳，《論語(yǔ)詞表》比《左傳詞表》效果更好的結(jié)論。統(tǒng)計(jì)分詞方法方面，梁書(shū)用《左傳》訓(xùn)練，測(cè)試《孟子》，其分詞結(jié)果F值最高達(dá)0.609，《論語(yǔ)》作為訓(xùn)練語(yǔ)料，F(xiàn)值最高則為0.699，而《孟子》自我訓(xùn)練則達(dá)到了0.956，可見(jiàn)統(tǒng)計(jì)方法對(duì)于不同文獻(xiàn)的遷移，其精度失落還是比較大的。

詞性標(biāo)注方面，梁書(shū)用《孟子》自我訓(xùn)練，F(xiàn)值封閉測(cè)試最高達(dá)0.941，開(kāi)放測(cè)試平均為0.897。而用《左傳》作為訓(xùn)練語(yǔ)料，F(xiàn)值為0.845，用《論語(yǔ)》作為訓(xùn)練語(yǔ)料，F(xiàn)值則為0.869。就詞性標(biāo)注錯(cuò)誤而言，梁書(shū)指出，用《左傳》《論語(yǔ)》訓(xùn)練，人名地名標(biāo)記出現(xiàn)了較大的精度失落。且《左傳》比《孟子》錯(cuò)誤率更高一些。但名詞動(dòng)詞活用方面，使用了《左傳》《論語(yǔ)》語(yǔ)料，反倒比單純使用《孟子》語(yǔ)料有了一定提升，這似乎說(shuō)明了就詞性標(biāo)注試驗(yàn)而言，不同文獻(xiàn)的數(shù)據(jù)也有可遷移的一面。

梁書(shū)在對(duì)《孟子》的文本特征進(jìn)行統(tǒng)計(jì)的基礎(chǔ)上，展開(kāi)了與《左傳》《論語(yǔ)》的比較。結(jié)果顯示，《左傳》用字最為繁復(fù)，數(shù)量大約是《孟子》的1.74倍和5.08倍。就具體用字而言，《孟子》中含有大量的“不”字，梁書(shū)分析這是因?yàn)槊献釉谵q論時(shí)，習(xí)慣于提出假設(shè)，從而增強(qiáng)辯說(shuō)的效力。梁書(shū)繼而分析，《孟子》中出現(xiàn)的“王”“則”等字在《論語(yǔ)》中未曾出現(xiàn)，這體現(xiàn)了《孟子》的敘述內(nèi)容和語(yǔ)言風(fēng)格。同時(shí)，梁書(shū)計(jì)算了《孟子》與《左傳》《論語(yǔ)》的文本相似度，前者為0.4238，后者為0.7411，顯然《孟子》與《論語(yǔ)》用字更接近，這與語(yǔ)言學(xué)本體研究和文章的體裁分類也是基本相符的。

詞型方面，梁書(shū)統(tǒng)計(jì)，《孟子》《論語(yǔ)》單字詞詞型占比超過(guò)半數(shù)，但《左傳》雙字詞詞型占比最高。梁書(shū)進(jìn)一步對(duì)詞語(yǔ)詞性標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì)，發(fā)現(xiàn)經(jīng)過(guò)詞性標(biāo)注后，《孟子》的帶標(biāo)記詞型數(shù)目比不帶標(biāo)記詞型數(shù)目增長(zhǎng)了33.28%，《論語(yǔ)》為33.87%，而《左傳》只增長(zhǎng)了20.25%，由此梁書(shū)判斷，《孟子》《論語(yǔ)》的兼類現(xiàn)象較《左傳》更為突出，這與我們的語(yǔ)言感覺(jué)基本類似。

梁書(shū)還對(duì)《孟子》《論語(yǔ)》《左傳》文獻(xiàn)中的陳述句、疑問(wèn)句、感嘆句、祈使句等句型進(jìn)行了人工標(biāo)注、比對(duì)分析。結(jié)果顯示，《孟子》論辯色彩最濃，疑問(wèn)句占比高達(dá)0.2323，《論語(yǔ)》中的感嘆句占比最高，達(dá)0.0960。顯然，這樣的計(jì)量特征讓我們能夠從數(shù)據(jù)方面領(lǐng)略到先秦文獻(xiàn)的語(yǔ)體差異。

梁書(shū)中關(guān)于《孟子》與其他先秦文獻(xiàn)的信息處理橫向比對(duì)研究，具有一定的普遍意義，其給我們的啟示在于，不同文獻(xiàn)作為訓(xùn)練語(yǔ)料，其針對(duì)某部專書(shū)的處理結(jié)果是具有差異的。體裁接近，語(yǔ)言風(fēng)格類似的文獻(xiàn)自然可以取得更好的成績(jī)，一味擴(kuò)大語(yǔ)料，進(jìn)行統(tǒng)計(jì)學(xué)習(xí)，可能并不有利于古文獻(xiàn)信息處理。但就某一方面而言，利用其他文獻(xiàn)也可能提高處理效果。因此，這種遷移學(xué)習(xí)的適應(yīng)領(lǐng)域和效果優(yōu)劣值得學(xué)界進(jìn)行深究。

三、利用注疏軸：基于《孟子》及其注疏的信息處理

梁書(shū)的一大創(chuàng)新之處在于利用《孟子注疏》《孟子集注》《孟子正義》等注疏語(yǔ)料，結(jié)合《孟子》原文進(jìn)行信息處理。上文介紹注疏文獻(xiàn)是古文獻(xiàn)信息處理的最好材料，并指出注疏處理的問(wèn)題在于如何從非結(jié)構(gòu)化的注疏文獻(xiàn)中抽取注疏，并識(shí)別出結(jié)構(gòu)化或半結(jié)構(gòu)化的語(yǔ)言知識(shí)。因此，梁書(shū)的第一章開(kāi)宗明義地介紹如何進(jìn)行注疏對(duì)齊這樣的必要先期工作。

據(jù)梁書(shū)介紹，注疏對(duì)齊分為句子對(duì)齊和注釋對(duì)齊兩個(gè)部分。所謂“句子對(duì)齊”，即將“夾引夾議”的注疏文獻(xiàn)重組為“引議平行”的結(jié)構(gòu)模式。參考平行語(yǔ)料庫(kù)的制作方法[7]，梁書(shū)設(shè)計(jì)了基于范圍檢查以及基于字符串相似度等算法，對(duì)孟子及其注疏進(jìn)行句子對(duì)齊。三本注疏的實(shí)驗(yàn)結(jié)果基本都在98%以上，略加人工修正，即可以形成完善的句子對(duì)齊注疏語(yǔ)料。

所謂“注釋對(duì)齊”，即將已經(jīng)完成句子對(duì)齊的語(yǔ)料中，關(guān)于具體字詞的解釋，錨定到原文的字詞位置。注疏中的字詞解釋，對(duì)于自動(dòng)分詞、詞性標(biāo)注，乃至理解原文自然極有幫助。同時(shí)，不同時(shí)期的注疏還可以進(jìn)行相互比對(duì)，分析孰優(yōu)孰劣，起到明辨源流的作用。但注疏對(duì)齊的工作量也是不言而喻的，目前詞語(yǔ)級(jí)別的注疏對(duì)齊結(jié)果尚屬少見(jiàn)。因此，梁書(shū)設(shè)計(jì)了基于正則表達(dá)式匹配的對(duì)齊方法，利用“反切法”“訓(xùn)詁術(shù)語(yǔ)”等53種固定格式從《孟子》注疏中抽取注音及訓(xùn)詁注釋。實(shí)驗(yàn)結(jié)果表明，就字詞短語(yǔ)三種語(yǔ)言單位的注釋而言，注釋對(duì)齊F值平均為0.887?；谶@些工作，梁書(shū)構(gòu)建了一個(gè)合并注疏數(shù)目772條的數(shù)據(jù)庫(kù)，以便后期綜合考察利用。

利用《孟子》傳世注疏對(duì)孟子進(jìn)行分詞是本書(shū)的一大特色。注疏分詞的優(yōu)點(diǎn)在于，一是無(wú)須事先準(zhǔn)備詞表;二是能抽取到通用詞表中未出現(xiàn)的大量未登錄詞;三是能改造為帶有增強(qiáng)學(xué)習(xí)性質(zhì)的深度學(xué)習(xí)分詞方法。梁書(shū)利用詞語(yǔ)注釋對(duì)齊結(jié)果，制作了《孟子》分詞詞表（其中，《孟子注疏》收詞1828個(gè)，《孟子集注》收詞1136個(gè)，《孟子正義》收詞1952個(gè)），而后采用規(guī)則方法進(jìn)行分詞，F(xiàn)值最高可達(dá)0.928，實(shí)驗(yàn)結(jié)果相比傳統(tǒng)方法基本接近，但與主流的統(tǒng)計(jì)方法相比，算法的時(shí)間復(fù)雜度大為下降。

利用注疏信息進(jìn)行詞性校正，是梁書(shū)的又一大創(chuàng)新。梁書(shū)介紹，詞性概念起源于西方，注疏文獻(xiàn)中自然也就沒(méi)有關(guān)于詞語(yǔ)詞性的內(nèi)容，但注疏中至少有三種對(duì)詞性標(biāo)注極有價(jià)值的信息：詞語(yǔ)是否為語(yǔ)助辭，人名地名以及反切聲調(diào)等。梁書(shū)從規(guī)模和規(guī)律性的角度出發(fā)，利用反切聲調(diào)信息中的去聲信息來(lái)進(jìn)行詞性自動(dòng)校正，實(shí)驗(yàn)的校正精度超過(guò)80%，初步證明了聲韻信息對(duì)于詞性校正的可操作性，以及注疏信息的待挖掘使用空間。

另外，梁書(shū)首次對(duì)《孟子注疏》《孟子集注》《孟子正義》進(jìn)行了文本特征統(tǒng)計(jì)分析，側(cè)面反映了不同時(shí)代學(xué)者對(duì)《孟子》作注的語(yǔ)言風(fēng)貌。梁書(shū)發(fā)現(xiàn)，盡管上述三本注疏成書(shū)年代跨越千年，但用字?jǐn)?shù)目卻相差不大，可見(jiàn)一本注疏的字型是比較趨同的。句型分類方面，梁書(shū)考察了《孟子》三部注疏的句型占比。結(jié)果顯示，《孟子集注》專于作注，因此疑問(wèn)句，感嘆句占比相對(duì)較少。這也是用計(jì)算機(jī)進(jìn)行大規(guī)模自動(dòng)挖掘才能發(fā)現(xiàn)的文本特征之一。

四、結(jié)語(yǔ)

通過(guò)上述三個(gè)層面的分析，我們對(duì)梁書(shū)的研究思路、研究成果和研究?jī)r(jià)值進(jìn)行了梳理。我們從書(shū)中充分認(rèn)識(shí)到，古文獻(xiàn)信息處理不免借用中文信息處理的方法，但又不能生搬硬套，否則效果自然不佳，因此如何借用改造中文信息處理方法，是古文獻(xiàn)信息處理的核心課題之一。

顯然，梁書(shū)中借用了大量中文信息處理的方法，比如雙語(yǔ)對(duì)齊算法、正則表達(dá)式、分詞詞性標(biāo)注方法等。實(shí)驗(yàn)結(jié)果也的確顯示，這些方法對(duì)于古文獻(xiàn)信息處理基本適用。同時(shí)，梁書(shū)也針對(duì)上述中文信息處理方法進(jìn)行了諸如匹配對(duì)齊，古漢語(yǔ)特征學(xué)習(xí)等相關(guān)改進(jìn)，這為我們遷移到其他古文獻(xiàn)提供了實(shí)驗(yàn)參考。梁書(shū)充分利用先秦文獻(xiàn)獨(dú)有的注疏資源，設(shè)計(jì)了若干從注疏材料中挖掘語(yǔ)言知識(shí)的方法，對(duì)自動(dòng)分詞、詞性標(biāo)注等相關(guān)信息處理提供了新的思路。另外，梁書(shū)在不同文獻(xiàn)比對(duì)研究的過(guò)程中所得到的一些結(jié)論對(duì)現(xiàn)代漢語(yǔ)信息處理也是具備參考價(jià)值的，比如跨領(lǐng)域非平衡語(yǔ)料之間的學(xué)習(xí)遷移、多源學(xué)習(xí)與領(lǐng)域自適應(yīng)、排比修辭格的識(shí)別等。

參考文獻(xiàn)：

[1] 曹書(shū)杰. 古籍整理與電子計(jì)算機(jī)應(yīng)用研究的思考[J]. 古籍整理研究學(xué)刊，1988（1）：44-49.

[2] 毛建軍. 古籍?dāng)?shù)字化研究的回顧與思考[J]. 國(guó)家圖書(shū)館學(xué)刊，2007（3）：62-65.

[3] 周迪，宋登漢. 中文古籍?dāng)?shù)字化開(kāi)發(fā)研究綜述[J]. 圖書(shū)情報(bào)知識(shí)，2010（6）：40-49.

[4] 梁社會(huì). 基于注疏文獻(xiàn)的《孟子》信息處理研究[M]. 北京：北京大學(xué)出版社，2021.

[5] 羅竹蓮. 詞類活用與詞的兼類論析[J]. 南華大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2005（2）：96-99.

[6] 李零. 簡(jiǎn)帛古書(shū)與學(xué)術(shù)源流[M]. 北京：生活·讀書(shū)·新知三聯(lián)書(shū)店，2004.

[7] 李維剛，劉挺，張宇，等. 基于長(zhǎng)度和位置信息的雙語(yǔ)句子對(duì)齊方法[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào)，2006（5）：689-692.

[8] 陳小荷，馮敏萱，徐潤(rùn)華. 先秦文獻(xiàn)信息處理[M]. 北京：世界圖書(shū)出版公司北京公司，2013.

文教資料2022年4期

文教資料的其它文章: 高校勤工助學(xué)資助育人功能的路徑探究; 安徽中醫(yī)藥大學(xué)大學(xué)生社會(huì)實(shí)踐現(xiàn)狀及育人成效調(diào)查研究; 信息化環(huán)境下提升高校輔導(dǎo)員教育能力的途徑分析; 高校輔導(dǎo)員工作與心理輔導(dǎo)的融合運(yùn)用研究; 新時(shí)代大學(xué)生心理健康問(wèn)題與教育策略探討; 基于線上線下結(jié)合的“大學(xué)生心理健康教育”課程教學(xué)探討