亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        先秦文獻(xiàn)信息處理的最新力作

        2022-05-22 11:43:00匡海波譚昕
        文教資料 2022年4期

        匡海波 譚昕

        摘 要:北京大學(xué)出版社出版的《基于注疏文獻(xiàn)的〈孟子〉信息處理研究》一書(shū)是對(duì)《孟子》及其注疏進(jìn)行信息處理的研究。本文從文獻(xiàn)自身、橫向比較、利用注疏三個(gè)層面來(lái)分析梁著的基本框架、研究思路和研究?jī)r(jià)值,并介紹該書(shū)如何創(chuàng)新地借用中文信息處理方法進(jìn)行古文獻(xiàn)信息處理。

        關(guān)鍵詞:注釋文獻(xiàn) 中文信息處理 古文獻(xiàn)信息處理

        古文獻(xiàn)信息處理作為數(shù)字人文的重要研究領(lǐng)域之一,近年來(lái)尤為引人注目。古文獻(xiàn)信息處理對(duì)于我國(guó)古代典籍整理傳承和古代歷史語(yǔ)言文化研究,其重要性不言而喻。如何利用現(xiàn)代化的計(jì)算機(jī)方法,拓寬古文獻(xiàn)研究思路,則同樣是古漢語(yǔ)學(xué)界、語(yǔ)言學(xué)學(xué)界以及計(jì)算機(jī)學(xué)界都非常關(guān)心的研究課題。

        二十世紀(jì)七八十年代,古文獻(xiàn)信息處理起步于古文獻(xiàn)電子化[1],經(jīng)過(guò)三四十年的發(fā)展已經(jīng)有了眾多研究成果,但仍存在不小的進(jìn)步空間[2-3],主要表現(xiàn)在大量傳世及出土文獻(xiàn)沒(méi)有進(jìn)行數(shù)字化,經(jīng)過(guò)信息處理的文獻(xiàn)只能說(shuō)“九牛一毛”。另外,目前的古文獻(xiàn)數(shù)字化往往只是淺層處理,尚不能為古漢語(yǔ)研究提供更深層次的數(shù)據(jù)支撐。基于計(jì)算語(yǔ)言學(xué)方法的古漢語(yǔ)語(yǔ)法、語(yǔ)義、語(yǔ)用研究還比較少見(jiàn)。實(shí)際上,如果只是對(duì)古籍進(jìn)行單純數(shù)字化,則大有“暴殄天物”

        之嫌。

        就先秦傳世經(jīng)典的信息處理而言,這些經(jīng)典的注疏文獻(xiàn)實(shí)際上是最好的語(yǔ)言材料。所謂“注疏文獻(xiàn)”,其實(shí)是后人由于去古已遠(yuǎn),無(wú)法對(duì)古文獻(xiàn)進(jìn)行直接閱讀,而所作的隨文注釋?!白⑹琛卑_萬(wàn)象,包含文字、音韻、訓(xùn)詁等各方面內(nèi)容?;谧⑹栉墨I(xiàn)的古文獻(xiàn)信息處理是學(xué)者對(duì)于古文獻(xiàn)注疏的一種延續(xù)和繼承,只是我們有了現(xiàn)代化的信息處理手段,理應(yīng)做得比前人更細(xì)更好。而基于注疏文獻(xiàn)進(jìn)行信息處理的主要難點(diǎn)在于,如何從非結(jié)構(gòu)化的注疏文獻(xiàn)中抽取并識(shí)別我們想要的語(yǔ)言知識(shí)。

        梁社會(huì)博士撰寫(xiě)的《基于注疏文獻(xiàn)的〈孟子〉信息處理研究》(北京大學(xué)出版社2021年出版,以下稱“梁書(shū)”)分為五章[4],屬于利用注疏對(duì)古文獻(xiàn)專書(shū)進(jìn)行信息處理的研究。我們將從文獻(xiàn)自身、橫向比較、利用注疏三個(gè)層面來(lái)分析梁著的基本框架、研究思路和研究?jī)r(jià)值,并介紹梁書(shū)如何創(chuàng)新地借用中文信息處理方法進(jìn)行古文獻(xiàn)信息處理,以期為后續(xù)工作者提供思考。

        一、文獻(xiàn)自身軸:《孟子》深層次信息處理

        上文有所表述,大量古文獻(xiàn)沒(méi)有進(jìn)行信息處理,但急于對(duì)大規(guī)??鐣r(shí)代古文獻(xiàn)進(jìn)行批量處理,難免“眉毛胡子一把抓”。同時(shí),古文獻(xiàn)信息處理的研究范式本身就尚未形成,不同時(shí)代文獻(xiàn)的處理方法是否具有遷移性,還需要深入研究。因此,針對(duì)某一部斷代專書(shū)進(jìn)行研究,理所應(yīng)當(dāng)。

        梁書(shū)選取了《孟子》作為信息處理對(duì)象。據(jù)其介紹,其大致理由有三:一是《孟子》及其注疏在十三經(jīng)注疏中篇幅較長(zhǎng)(《孟子》約4萬(wàn)字,《孟子注疏》約27萬(wàn)字,《孟子集注》約12.1萬(wàn)字,《孟子正義》約33.3萬(wàn)字),相較于大多數(shù)十三經(jīng)文獻(xiàn)便于統(tǒng)計(jì)和機(jī)器學(xué)習(xí);二是針對(duì)《孟子》的自動(dòng)分詞、詞性標(biāo)注、詞義消歧研究尚屬空白,亟待進(jìn)行拓荒;三是《孟子》流傳甚廣,語(yǔ)言風(fēng)格明顯,修辭使用廣泛,專于邏輯說(shuō)理,便于進(jìn)行語(yǔ)言風(fēng)格計(jì)算。這三條理由是完全站得住腳的。

        梁書(shū)中對(duì)《孟子》的處理流程包括自動(dòng)分詞,詞性標(biāo)注,語(yǔ)義消歧,風(fēng)格計(jì)算等。經(jīng)過(guò)這一系列的縱向處理,所得到的《孟子》語(yǔ)料屬于“熟語(yǔ)料”,具有了相當(dāng)?shù)难芯績(jī)r(jià)值,不僅便于一般用戶進(jìn)行理解閱讀、智能化搜索等,同時(shí)也可以協(xié)助古漢語(yǔ)專家進(jìn)行詞匯、語(yǔ)法等研究,或?qū)Α睹献印芳捌渌?jīng)進(jìn)行橫向比較。

        自動(dòng)分詞是古文獻(xiàn)信息處理的基礎(chǔ)性工作之一。梁書(shū)利用規(guī)則方法、統(tǒng)計(jì)模型以及注疏文獻(xiàn)三種方法對(duì)《孟子》進(jìn)行了自動(dòng)分詞實(shí)驗(yàn)。根據(jù)梁書(shū)報(bào)告,規(guī)則方法分詞結(jié)果F值最高達(dá)0.946。統(tǒng)計(jì)模型(采用條件隨機(jī)場(chǎng)模型)分詞結(jié)果F值最高達(dá)0.982。其中,統(tǒng)計(jì)模型特別考慮了將漢字的聲韻調(diào)及部首信息加入學(xué)習(xí)模板進(jìn)行對(duì)比實(shí)驗(yàn),具有很強(qiáng)的針對(duì)性。實(shí)驗(yàn)表明,漢字的聲母信息對(duì)分詞結(jié)果有所提高,但再加入韻母、聲調(diào)、部首信息反而造成了分詞結(jié)果的精度失落。另外,利用《孟子》傳世注疏對(duì)孟子進(jìn)行分詞是本書(shū)的一大特色(第4節(jié)詳述),其分詞結(jié)果F值最高可達(dá)0.928,實(shí)驗(yàn)結(jié)果相比其余兩種方法并沒(méi)有較大差距。

        先秦文獻(xiàn)所使用的語(yǔ)言屬于上古漢語(yǔ),與現(xiàn)代漢語(yǔ)在詞類分布方面有所不同。梁書(shū)根據(jù)《孟子》及其他先秦文獻(xiàn)的語(yǔ)言詞匯特點(diǎn),設(shè)計(jì)了13大類43小類的詞性類別,同時(shí)特別強(qiáng)調(diào),先秦漢語(yǔ)較現(xiàn)代漢語(yǔ)普遍存在詞語(yǔ)兼類和活用現(xiàn)象[5],應(yīng)當(dāng)是詞性標(biāo)注實(shí)驗(yàn)的重點(diǎn)難點(diǎn)。梁書(shū)拋開(kāi)詞語(yǔ)兼類與活用的區(qū)分不論,據(jù)其統(tǒng)計(jì),《孟子》全文詞語(yǔ)兼類及活用比例一共高達(dá)22.24%。梁書(shū)采用條件隨機(jī)場(chǎng)模型進(jìn)行詞性標(biāo)注實(shí)驗(yàn),詞語(yǔ)F值最高達(dá)0.941。同時(shí),梁書(shū)對(duì)標(biāo)注錯(cuò)誤進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)名詞動(dòng)詞混淆是《孟子》詞性標(biāo)注錯(cuò)誤的主要來(lái)源,占比達(dá)45.58%。這個(gè)結(jié)果也佐證了我們對(duì)于上古漢語(yǔ)的大致印象,即名詞動(dòng)詞的活用比較普遍且寬泛。此外,梁書(shū)還創(chuàng)造性地使用注疏信息對(duì)詞性標(biāo)注結(jié)果進(jìn)行校正,具體情況見(jiàn)第4節(jié)。

        在分詞和詞性標(biāo)注的基礎(chǔ)上,梁書(shū)對(duì)《孟子》中最常見(jiàn)的10個(gè)多義詞,即“之”“而”“以”“有”等進(jìn)行了詞義消歧。與現(xiàn)代漢語(yǔ)相比,這些多義單字詞詞頻占比更高,義項(xiàng)也更為豐富(多則12項(xiàng),少則4項(xiàng)),因此,數(shù)據(jù)量更小更稀疏,消歧難度更大,但也是理解先秦文獻(xiàn)的關(guān)鍵之一。梁書(shū)分別采用了條件隨機(jī)場(chǎng)模型,詞義消歧樹(shù)兩種算法進(jìn)行詞義消歧實(shí)驗(yàn)。在窗口長(zhǎng)度為2,且綜合考慮詞語(yǔ)詞性、讀音等語(yǔ)言特征的情形下,封閉測(cè)試正確率平均為86.36%與87.95%,開(kāi)放測(cè)試正確率平均為84.76%與85.54%,消歧效果尚佳且兩種算法結(jié)果基本接近。

        上文介紹,先秦文獻(xiàn)數(shù)量眾多,體裁豐富,據(jù)李零[6]介紹,大致有八大類別。其中,不同體裁的先秦文獻(xiàn)語(yǔ)言風(fēng)格存在差異,即便是同一體裁,不同文獻(xiàn)之間也或多或少存在著差異。相較于其他先秦文獻(xiàn)而言,人們總的感覺(jué)是《孟子》修辭使用廣泛,專于邏輯說(shuō)理。根據(jù)這一特點(diǎn),梁書(shū)首先對(duì)《孟子》的文本特征進(jìn)行了大規(guī)模的細(xì)致統(tǒng)計(jì),統(tǒng)計(jì)內(nèi)容十分豐富,包括篇幅,用字頻率,用字熵值,用詞頻率,平均詞長(zhǎng),句型分布等,從各層面對(duì)《孟子》的語(yǔ)言風(fēng)格進(jìn)行了系統(tǒng)統(tǒng)計(jì),并與其他先秦文獻(xiàn)做了比較,具體情況見(jiàn)第3節(jié)。另外,梁書(shū)分析《孟子》說(shuō)理磅礴,其原因之一是大量使用排比句,因此對(duì)《孟子》進(jìn)行了排比句這樣的修辭格識(shí)別實(shí)驗(yàn)。其識(shí)別算法融合了最長(zhǎng)公共子序列求解,相似度計(jì)算、句珠遍歷等算法,封測(cè)測(cè)試和開(kāi)放測(cè)試的F值達(dá)0.61與0.59,這項(xiàng)研究為古漢語(yǔ)修辭格自動(dòng)識(shí)別進(jìn)行了拓荒。

        二、橫向比較軸:《孟子》與其他先秦文獻(xiàn)信息處理的比較

        以十三經(jīng)為代表的先秦文獻(xiàn),其篇幅長(zhǎng)短及語(yǔ)言風(fēng)格是具有差異的。即便是同樣的體裁,例如《孟子》和《論語(yǔ)》,也存在著語(yǔ)言風(fēng)格差異。梁書(shū)介紹,《孟子》語(yǔ)言風(fēng)格特點(diǎn)“喻體廣泛,方式多樣”,這是文獻(xiàn)學(xué)和古漢語(yǔ)研究已有的確論。但文獻(xiàn)差異是否體現(xiàn)為語(yǔ)言計(jì)算結(jié)果的不同,這種差異對(duì)于信息處理的方法遷移又具有多大影響,哪些文獻(xiàn)具有獨(dú)特的處理方法,這都是極具價(jià)值的文獻(xiàn)橫向研究課題。

        基于上述考慮,梁書(shū)牢牢抓住《孟子》的語(yǔ)言特點(diǎn),在與其他先秦文獻(xiàn)的信息處理結(jié)果比對(duì)中,展開(kāi)研究。

        梁書(shū)采用《漢語(yǔ)大詞典》《孟子譯注附錄詞表》《論語(yǔ)詞表》《左傳詞表》四種詞表對(duì)《孟子》進(jìn)行了機(jī)械分詞,分詞結(jié)果F值分別為0.863,0.935,0.946,0.909,得出了《孟子譯注附錄詞表》效果最佳,《論語(yǔ)詞表》比《左傳詞表》效果更好的結(jié)論。統(tǒng)計(jì)分詞方法方面,梁書(shū)用《左傳》訓(xùn)練,測(cè)試《孟子》,其分詞結(jié)果F值最高達(dá)0.609,《論語(yǔ)》作為訓(xùn)練語(yǔ)料,F(xiàn)值最高則為0.699,而《孟子》自我訓(xùn)練則達(dá)到了0.956,可見(jiàn)統(tǒng)計(jì)方法對(duì)于不同文獻(xiàn)的遷移,其精度失落還是比較大的。

        詞性標(biāo)注方面,梁書(shū)用《孟子》自我訓(xùn)練,F(xiàn)值封閉測(cè)試最高達(dá)0.941,開(kāi)放測(cè)試平均為0.897。而用《左傳》作為訓(xùn)練語(yǔ)料,F(xiàn)值為0.845,用《論語(yǔ)》作為訓(xùn)練語(yǔ)料,F(xiàn)值則為0.869。就詞性標(biāo)注錯(cuò)誤而言,梁書(shū)指出,用《左傳》《論語(yǔ)》訓(xùn)練,人名地名標(biāo)記出現(xiàn)了較大的精度失落。且《左傳》比《孟子》錯(cuò)誤率更高一些。但名詞動(dòng)詞活用方面,使用了《左傳》《論語(yǔ)》語(yǔ)料,反倒比單純使用《孟子》語(yǔ)料有了一定提升,這似乎說(shuō)明了就詞性標(biāo)注試驗(yàn)而言,不同文獻(xiàn)的數(shù)據(jù)也有可遷移的一面。

        梁書(shū)在對(duì)《孟子》的文本特征進(jìn)行統(tǒng)計(jì)的基礎(chǔ)上,展開(kāi)了與《左傳》《論語(yǔ)》的比較。結(jié)果顯示,《左傳》用字最為繁復(fù),數(shù)量大約是《孟子》的1.74倍和5.08倍。就具體用字而言,《孟子》中含有大量的“不”字,梁書(shū)分析這是因?yàn)槊献釉谵q論時(shí),習(xí)慣于提出假設(shè),從而增強(qiáng)辯說(shuō)的效力。梁書(shū)繼而分析,《孟子》中出現(xiàn)的“王”“則”等字在《論語(yǔ)》中未曾出現(xiàn),這體現(xiàn)了《孟子》的敘述內(nèi)容和語(yǔ)言風(fēng)格。同時(shí),梁書(shū)計(jì)算了《孟子》與《左傳》《論語(yǔ)》的文本相似度,前者為0.4238,后者為0.7411,顯然《孟子》與《論語(yǔ)》用字更接近,這與語(yǔ)言學(xué)本體研究和文章的體裁分類也是基本相符的。

        詞型方面,梁書(shū)統(tǒng)計(jì),《孟子》《論語(yǔ)》單字詞詞型占比超過(guò)半數(shù),但《左傳》雙字詞詞型占比最高。梁書(shū)進(jìn)一步對(duì)詞語(yǔ)詞性標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)經(jīng)過(guò)詞性標(biāo)注后,《孟子》的帶標(biāo)記詞型數(shù)目比不帶標(biāo)記詞型數(shù)目增長(zhǎng)了33.28%,《論語(yǔ)》為33.87%,而《左傳》只增長(zhǎng)了20.25%,由此梁書(shū)判斷,《孟子》《論語(yǔ)》的兼類現(xiàn)象較《左傳》更為突出,這與我們的語(yǔ)言感覺(jué)基本類似。

        梁書(shū)還對(duì)《孟子》《論語(yǔ)》《左傳》文獻(xiàn)中的陳述句、疑問(wèn)句、感嘆句、祈使句等句型進(jìn)行了人工標(biāo)注、比對(duì)分析。結(jié)果顯示,《孟子》論辯色彩最濃,疑問(wèn)句占比高達(dá)0.2323,《論語(yǔ)》中的感嘆句占比最高,達(dá)0.0960。顯然,這樣的計(jì)量特征讓我們能夠從數(shù)據(jù)方面領(lǐng)略到先秦文獻(xiàn)的語(yǔ)體差異。

        梁書(shū)中關(guān)于《孟子》與其他先秦文獻(xiàn)的信息處理橫向比對(duì)研究,具有一定的普遍意義,其給我們的啟示在于,不同文獻(xiàn)作為訓(xùn)練語(yǔ)料,其針對(duì)某部專書(shū)的處理結(jié)果是具有差異的。體裁接近,語(yǔ)言風(fēng)格類似的文獻(xiàn)自然可以取得更好的成績(jī),一味擴(kuò)大語(yǔ)料,進(jìn)行統(tǒng)計(jì)學(xué)習(xí),可能并不有利于古文獻(xiàn)信息處理。但就某一方面而言,利用其他文獻(xiàn)也可能提高處理效果。因此,這種遷移學(xué)習(xí)的適應(yīng)領(lǐng)域和效果優(yōu)劣值得學(xué)界進(jìn)行深究。

        三、利用注疏軸:基于《孟子》及其注疏的信息處理

        梁書(shū)的一大創(chuàng)新之處在于利用《孟子注疏》《孟子集注》《孟子正義》等注疏語(yǔ)料,結(jié)合《孟子》原文進(jìn)行信息處理。上文介紹注疏文獻(xiàn)是古文獻(xiàn)信息處理的最好材料,并指出注疏處理的問(wèn)題在于如何從非結(jié)構(gòu)化的注疏文獻(xiàn)中抽取注疏,并識(shí)別出結(jié)構(gòu)化或半結(jié)構(gòu)化的語(yǔ)言知識(shí)。因此,梁書(shū)的第一章開(kāi)宗明義地介紹如何進(jìn)行注疏對(duì)齊這樣的必要先期工作。

        據(jù)梁書(shū)介紹,注疏對(duì)齊分為句子對(duì)齊和注釋對(duì)齊兩個(gè)部分。所謂“句子對(duì)齊”,即將“夾引夾議”的注疏文獻(xiàn)重組為“引議平行”的結(jié)構(gòu)模式。參考平行語(yǔ)料庫(kù)的制作方法[7],梁書(shū)設(shè)計(jì)了基于范圍檢查以及基于字符串相似度等算法,對(duì)孟子及其注疏進(jìn)行句子對(duì)齊。三本注疏的實(shí)驗(yàn)結(jié)果基本都在98%以上,略加人工修正,即可以形成完善的句子對(duì)齊注疏語(yǔ)料。

        所謂“注釋對(duì)齊”,即將已經(jīng)完成句子對(duì)齊的語(yǔ)料中,關(guān)于具體字詞的解釋,錨定到原文的字詞位置。注疏中的字詞解釋,對(duì)于自動(dòng)分詞、詞性標(biāo)注,乃至理解原文自然極有幫助。同時(shí),不同時(shí)期的注疏還可以進(jìn)行相互比對(duì),分析孰優(yōu)孰劣,起到明辨源流的作用。但注疏對(duì)齊的工作量也是不言而喻的,目前詞語(yǔ)級(jí)別的注疏對(duì)齊結(jié)果尚屬少見(jiàn)。因此,梁書(shū)設(shè)計(jì)了基于正則表達(dá)式匹配的對(duì)齊方法,利用“反切法”“訓(xùn)詁術(shù)語(yǔ)”等53種固定格式從《孟子》注疏中抽取注音及訓(xùn)詁注釋。實(shí)驗(yàn)結(jié)果表明,就字詞短語(yǔ)三種語(yǔ)言單位的注釋而言,注釋對(duì)齊F值平均為0.887?;谶@些工作,梁書(shū)構(gòu)建了一個(gè)合并注疏數(shù)目772條的數(shù)據(jù)庫(kù),以便后期綜合考察利用。

        利用《孟子》傳世注疏對(duì)孟子進(jìn)行分詞是本書(shū)的一大特色。注疏分詞的優(yōu)點(diǎn)在于,一是無(wú)須事先準(zhǔn)備詞表;二是能抽取到通用詞表中未出現(xiàn)的大量未登錄詞;三是能改造為帶有增強(qiáng)學(xué)習(xí)性質(zhì)的深度學(xué)習(xí)分詞方法。梁書(shū)利用詞語(yǔ)注釋對(duì)齊結(jié)果,制作了《孟子》分詞詞表(其中,《孟子注疏》收詞1828個(gè),《孟子集注》收詞1136個(gè),《孟子正義》收詞1952個(gè)),而后采用規(guī)則方法進(jìn)行分詞,F(xiàn)值最高可達(dá)0.928,實(shí)驗(yàn)結(jié)果相比傳統(tǒng)方法基本接近,但與主流的統(tǒng)計(jì)方法相比,算法的時(shí)間復(fù)雜度大為下降。

        利用注疏信息進(jìn)行詞性校正,是梁書(shū)的又一大創(chuàng)新。梁書(shū)介紹,詞性概念起源于西方,注疏文獻(xiàn)中自然也就沒(méi)有關(guān)于詞語(yǔ)詞性的內(nèi)容,但注疏中至少有三種對(duì)詞性標(biāo)注極有價(jià)值的信息:詞語(yǔ)是否為語(yǔ)助辭,人名地名以及反切聲調(diào)等。梁書(shū)從規(guī)模和規(guī)律性的角度出發(fā),利用反切聲調(diào)信息中的去聲信息來(lái)進(jìn)行詞性自動(dòng)校正,實(shí)驗(yàn)的校正精度超過(guò)80%,初步證明了聲韻信息對(duì)于詞性校正的可操作性,以及注疏信息的待挖掘使用空間。

        另外,梁書(shū)首次對(duì)《孟子注疏》《孟子集注》《孟子正義》進(jìn)行了文本特征統(tǒng)計(jì)分析,側(cè)面反映了不同時(shí)代學(xué)者對(duì)《孟子》作注的語(yǔ)言風(fēng)貌。梁書(shū)發(fā)現(xiàn),盡管上述三本注疏成書(shū)年代跨越千年,但用字?jǐn)?shù)目卻相差不大,可見(jiàn)一本注疏的字型是比較趨同的。句型分類方面,梁書(shū)考察了《孟子》三部注疏的句型占比。結(jié)果顯示,《孟子集注》專于作注,因此疑問(wèn)句,感嘆句占比相對(duì)較少。這也是用計(jì)算機(jī)進(jìn)行大規(guī)模自動(dòng)挖掘才能發(fā)現(xiàn)的文本特征之一。

        四、結(jié)語(yǔ)

        通過(guò)上述三個(gè)層面的分析,我們對(duì)梁書(shū)的研究思路、研究成果和研究?jī)r(jià)值進(jìn)行了梳理。我們從書(shū)中充分認(rèn)識(shí)到,古文獻(xiàn)信息處理不免借用中文信息處理的方法,但又不能生搬硬套,否則效果自然不佳,因此如何借用改造中文信息處理方法,是古文獻(xiàn)信息處理的核心課題之一。

        顯然,梁書(shū)中借用了大量中文信息處理的方法,比如雙語(yǔ)對(duì)齊算法、正則表達(dá)式、分詞詞性標(biāo)注方法等。實(shí)驗(yàn)結(jié)果也的確顯示,這些方法對(duì)于古文獻(xiàn)信息處理基本適用。同時(shí),梁書(shū)也針對(duì)上述中文信息處理方法進(jìn)行了諸如匹配對(duì)齊,古漢語(yǔ)特征學(xué)習(xí)等相關(guān)改進(jìn),這為我們遷移到其他古文獻(xiàn)提供了實(shí)驗(yàn)參考。梁書(shū)充分利用先秦文獻(xiàn)獨(dú)有的注疏資源,設(shè)計(jì)了若干從注疏材料中挖掘語(yǔ)言知識(shí)的方法,對(duì)自動(dòng)分詞、詞性標(biāo)注等相關(guān)信息處理提供了新的思路。另外,梁書(shū)在不同文獻(xiàn)比對(duì)研究的過(guò)程中所得到的一些結(jié)論對(duì)現(xiàn)代漢語(yǔ)信息處理也是具備參考價(jià)值的,比如跨領(lǐng)域非平衡語(yǔ)料之間的學(xué)習(xí)遷移、多源學(xué)習(xí)與領(lǐng)域自適應(yīng)、排比修辭格的識(shí)別等。

        參考文獻(xiàn):

        [1] 曹書(shū)杰. 古籍整理與電子計(jì)算機(jī)應(yīng)用研究的思考[J]. 古籍整理研究學(xué)刊,1988(1):44-49.

        [2] 毛建軍. 古籍?dāng)?shù)字化研究的回顧與思考[J]. 國(guó)家圖書(shū)館學(xué)刊,2007(3):62-65.

        [3] 周迪,宋登漢. 中文古籍?dāng)?shù)字化開(kāi)發(fā)研究綜述[J]. 圖書(shū)情報(bào)知識(shí),2010(6):40-49.

        [4] 梁社會(huì). 基于注疏文獻(xiàn)的《孟子》信息處理研究[M]. 北京:北京大學(xué)出版社,2021.

        [5] 羅竹蓮. 詞類活用與詞的兼類論析[J]. 南華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2005(2):96-99.

        [6] 李零. 簡(jiǎn)帛古書(shū)與學(xué)術(shù)源流[M]. 北京:生活·讀書(shū)·新知三聯(lián)書(shū)店,2004.

        [7] 李維剛,劉挺,張宇,等. 基于長(zhǎng)度和位置信息的雙語(yǔ)句子對(duì)齊方法[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006(5):689-692.

        [8] 陳小荷,馮敏萱,徐潤(rùn)華. 先秦文獻(xiàn)信息處理[M]. 北京:世界圖書(shū)出版公司北京公司,2013.

        欧美黑人性色黄在线视频| 狠狠噜天天噜日日噜视频麻豆| 日本黄页网站免费大全| 精品视频在线观看一区二区三区| 精品蜜桃av免费观看| 国产suv精品一区二区四| 国外亚洲成av人片在线观看 | 亚洲精品成人片在线观看| 一区二区三区国产97| 亚洲精品一区二区在线免费观看| 久久久久亚洲av无码专区喷水| 色婷婷五月综合亚洲小说| 国产成人精品人人做人人爽| 精彩视频在线观看一区二区三区 | 久久精品99久久香蕉国产| 亚洲国产18成人中文字幕久久久久无码av | 国产精品无圣光一区二区| 激情久久无码天堂| 亚洲av成人无网码天堂| 日本丰满老妇bbw| 亚洲熟伦熟女新五十路熟妇| 无码高潮久久一级一级喷水| 亚洲日本中文字幕乱码在线| 啦啦啦中文在线观看日本| 亚洲成av人最新无码| 97人妻蜜臀中文字幕| 华人免费网站在线观看| 午夜无码国产理论在线| 亚洲韩国在线| 日韩精品一区二区亚洲观看av| 久久综合亚洲色一区二区三区| 猫咪www免费人成网最新网站| 国产成人福利av一区二区三区| 玖玖色玖玖草玖玖爱在线精品视频| 柠檬福利第一导航在线| 亚洲AV无码一区二区三区性色学| 亚洲长腿丝袜中文字幕| 国产成人av综合色| 国产精品麻豆成人AV电影艾秋| 国产一区二区三区在线观看蜜桃| 中文字幕无线码一区二区|