亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

文言信息的自動(dòng)抽取：基于統(tǒng)計(jì)和規(guī)則的嘗試

2015-04-12 11:30:52虞寧翌饒高琦1荀恩東

中文信息學(xué)報(bào) 2015年6期

虞寧翌，饒高琦1，，荀恩東

（1.北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院，北京100083；2.北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院，北京100083）

1 引言

中國(guó)語(yǔ)言由古代文言文到現(xiàn)代白話文經(jīng)過(guò)了近三千年的發(fā)展演變。排除字形的變化，語(yǔ)言本身在詞匯、語(yǔ)法和篇章層面都產(chǎn)生了巨大變化，但卻不失其連續(xù)性。這一特點(diǎn)使得在大時(shí)間跨度上研究漢語(yǔ)特征變化成為重要課題。對(duì)書面語(yǔ)進(jìn)行文言／白話標(biāo)注有助于對(duì)語(yǔ)言進(jìn)行歷時(shí)性的描寫，分析語(yǔ)言風(fēng)格，了解漢語(yǔ)書面語(yǔ)的發(fā)展情況。同時(shí)也方便對(duì)文言、白話混雜語(yǔ)料的分類和加工。

傳統(tǒng)的語(yǔ)言學(xué)自省的方法有其固有的主觀、高成本和緩慢的局限性。在文言、白話分類標(biāo)注這一問(wèn)題中引入自然語(yǔ)言處理的成熟方法和模型，結(jié)合專家自省知識(shí)，則有助于克服以上問(wèn)題。本文研究中發(fā)現(xiàn)的特征和方法反過(guò)來(lái)又可以深化對(duì)漢語(yǔ)演變作為一個(gè)連續(xù)統(tǒng)的認(rèn)識(shí)，因而具有一定的理論價(jià)值。本文的研究在一定程度上驗(yàn)證了王力先生提出的觀點(diǎn)，即文言與白話的分野不在詞匯與句式，而是虛詞系統(tǒng)［1］。

在語(yǔ)料庫(kù)構(gòu)建的實(shí)踐中，我們?cè)庥隽宋难晕恼Z(yǔ)料和白話文語(yǔ)料混合的情況，這給語(yǔ)料庫(kù)的科學(xué)平衡構(gòu)建帶來(lái)了一定困難。在語(yǔ)言生活的調(diào)研工作中，社會(huì)大眾的文言使用情況是重要的調(diào)查目標(biāo)。在現(xiàn)代書面語(yǔ)寫作中文言、白話夾雜的現(xiàn)象也比比皆是，這給句法語(yǔ)義分析帶來(lái)很大困擾。因而在大規(guī)模語(yǔ)料中通過(guò)計(jì)算手段自動(dòng)標(biāo)注文言文／白話文也具有重要的實(shí)踐和工程價(jià)值。本文研究發(fā)現(xiàn)使用基于字的統(tǒng)計(jì)特征可以實(shí)現(xiàn)對(duì)文言文較為精確的標(biāo)注。

文章的組織結(jié)構(gòu)如下：第2節(jié)簡(jiǎn)述了現(xiàn)有相關(guān)研究；第3節(jié)描述了語(yǔ)料和測(cè)試集的構(gòu)建；第4節(jié)描述了基于規(guī)則的方法；第5節(jié)描述基于統(tǒng)計(jì)的方法；第6節(jié)是結(jié)論與展望。

2 研究現(xiàn)狀

經(jīng)過(guò)調(diào)研，與本文研究方向相同的研究工作并不多，相關(guān)的研究方向有漢語(yǔ)年代劃分、用字特征、語(yǔ)言風(fēng)格、中文文本分類等方向。語(yǔ)言的發(fā)展是一個(gè)有序、緩慢、逐步演變的過(guò)程。社會(huì)語(yǔ)言學(xué)的理論揭示：語(yǔ)言是在穩(wěn)態(tài)中變化，在變化中保持穩(wěn)態(tài)。穩(wěn)態(tài)不同于靜態(tài)。自然語(yǔ)言處理通常關(guān)注共時(shí)語(yǔ)料，也即一個(gè)時(shí)間切片上的語(yǔ)言數(shù)據(jù)。大規(guī)模語(yǔ)料庫(kù)亦少對(duì)時(shí)間信息進(jìn)行標(biāo)注。而實(shí)際上，語(yǔ)言是不斷發(fā)展變化的。語(yǔ)料數(shù)據(jù)亦有其時(shí)效性。這不僅表現(xiàn)在詞匯短語(yǔ)的分布上，也表現(xiàn)在語(yǔ)義乃至語(yǔ)言風(fēng)格上［2－3］。

石毓智對(duì)漢語(yǔ)發(fā)展的雙音化趨勢(shì)和動(dòng)補(bǔ)結(jié)構(gòu)進(jìn)行了探究。漢語(yǔ)的雙音化并非一蹴而就，是自漢代以來(lái)逐漸發(fā)展的［4］。胡裕樹(shù)在1981年對(duì)雙音化情況進(jìn)行過(guò)統(tǒng)計(jì)，不計(jì)詞類區(qū)別，在3 000個(gè)最常用的詞中，75%是雙音節(jié)詞，還有大量未列入的雙音節(jié)常用詞。總體上說(shuō)，雙音詞占漢語(yǔ)詞匯的80%以上［5］。呂叔湘在1961年提出，在很多情況下，單音節(jié)詞只有加上一個(gè)音節(jié)（詞綴）才能獨(dú)立成詞或作為句子成分［6］。

2012年和2013年，Mihalcea等和Popescu等［7－8］提出了時(shí)代消歧和時(shí)代檢測(cè)兩個(gè)任務(wù)及其基線。前者使用多種Welch測(cè)試、Run測(cè)試、最小二乘、Ratio、斯皮爾曼和Kendall測(cè)試等統(tǒng)計(jì)方法來(lái)判斷重要詞語(yǔ)（尤其是政治相關(guān)詞語(yǔ)）在近兩百年的Google N－gram Corpus的分布，以判斷其是否隨機(jī)，由此來(lái)進(jìn)行歷史時(shí)期分割。Mihalcea等提出的時(shí)代消歧任務(wù)是在詞語(yǔ)中挑選出具有時(shí)代區(qū)分力的詞語(yǔ)。

在歷時(shí)語(yǔ)料的建設(shè)方面，北京語(yǔ)言大學(xué)建立的現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng)，使用了《貴州日?qǐng)?bào)》《福建日?qǐng)?bào)》和《人民日?qǐng)?bào)》共計(jì)8億字、4.7億詞，并提供在線檢索①http：／／nlp.blcu.edu.cn／historical20%computing。時(shí)間跨度為1949—2013年［9］。北語(yǔ)漢語(yǔ)語(yǔ)料庫(kù)BCC的文學(xué)頻道則收集了時(shí)間跨度約為100年的文學(xué)語(yǔ)料24億字，并提供在線檢索［10］②http：／／bcc.blcu.edu.cn／index.php？corpus＝1。

3 測(cè)試集與統(tǒng)計(jì)基線

3.1 單句測(cè)試集

單句測(cè)試集包括1 372句文言文和1 538句白話文，共有2 900句，文言文和白話文的數(shù)量大致平衡。文言文部分選用了《論語(yǔ)》中的單句。《論語(yǔ)》形成于我國(guó)春秋時(shí)期，是最早的語(yǔ)錄體文集，記錄了孔子及其弟子的言行。《論語(yǔ)》作為儒家經(jīng)典文學(xué)，有悠久的歷史，其中沒(méi)有白話文成分，是典型的文言作品。《論語(yǔ)》有較為成熟的句讀，易于程序切分為單句，方便使用，白話文部分采集自《人民日?qǐng)?bào)》。《人民日?qǐng)?bào)》是我國(guó)第一大報(bào)，使用了典范的現(xiàn)代漢語(yǔ)白話文，用字用詞十分規(guī)范。

測(cè)試集的句子長(zhǎng)度保持在5—100字之間。若句長(zhǎng)小于5個(gè)字，句子中可判斷特征不明顯，實(shí)際可判斷力過(guò)差，會(huì)降低測(cè)試結(jié)果的有效性?？紤]單句的實(shí)際情況，句長(zhǎng)超過(guò)100字的現(xiàn)象并不常見(jiàn)。古漢語(yǔ)的平均句長(zhǎng)通常小于現(xiàn)代漢語(yǔ)的平均句長(zhǎng)。若采用大量特殊的過(guò)長(zhǎng)現(xiàn)代漢語(yǔ)作為測(cè)試集，可能影響標(biāo)注，再則缺乏效力。

測(cè)試集樣例：

文言文：＜文＞有朋自遠(yuǎn)方來(lái)，不亦樂(lè)乎？

＜文＞孝弟也者，其為仁之本與！

白話文：＜白＞那么，增收的原因何在？

＜白＞移風(fēng)易俗，提倡健康文明的生活習(xí)慣！

3.2 段落測(cè)試集

段落測(cè)試集包括1 050段古漢語(yǔ)和1 050段現(xiàn)代漢語(yǔ)，共2 100段，古漢語(yǔ)和現(xiàn)代漢語(yǔ)的數(shù)量持平。文言文部分選用了《古文觀止》和《全唐文》的段落?！豆盼挠^止》是歷代文言散文的精選集，清康熙年間編纂；《全唐文》是唐代及五代十國(guó)的文言散文，清嘉慶年間編纂。兩者均為清代中期前編纂，選文于上古和中古漢語(yǔ)，是典范的文言文作品，不包含白話文，而且其段落長(zhǎng)度適中，適宜被選作段落測(cè)試集。

白話文部分選用了《人民日?qǐng)?bào)》和《王朔文集》的段落?！度嗣袢?qǐng)?bào)》的段落中包含較多阿拉伯?dāng)?shù)字和字母，在文言文中沒(méi)有阿拉伯?dāng)?shù)字和字母，因而不宜在測(cè)試集中使用，在尋找純漢字段落之外，我們還引入了《王朔文集》。王朔從20世紀(jì)80年代開(kāi)始寫作，作品內(nèi)容為典型的當(dāng)代白話文。《現(xiàn)代漢語(yǔ)》等教材亦多使用其內(nèi)容做例句、例文。

測(cè)試集中，段落長(zhǎng)度基本保持在100—300字之間。段落測(cè)試集格式與單句測(cè)試集相同。段落測(cè)試集僅用于對(duì)單句測(cè)試集結(jié)果的補(bǔ)充驗(yàn)證。

3.3 報(bào)章體測(cè)試集

報(bào)章體測(cè)試集包括1 000段梁?jiǎn)⒊淖髌?。梁?jiǎn)⒊菆?bào)章體文學(xué)的代表人物，他的作品文白相間，在近代中國(guó)具有很大的影響力。測(cè)試集被同時(shí)標(biāo)為文言文和白話文兩種形式，用于測(cè)試。段落長(zhǎng)度基本保持在100—300字之間。該測(cè)試集并不用于測(cè)試方法性能，僅用于研究報(bào)章體文學(xué)的用字特性。

測(cè)試集舉例如下所示。

＜白＞｜＜文＞四曰厲國(guó)恥。務(wù)使吾國(guó)民知我國(guó)在世界上之位置，知東西列強(qiáng)待我國(guó)之政策，鑒觀既往，熟察現(xiàn)在，以圖將來(lái)。內(nèi)其國(guó)而外諸邦，一以天演學(xué)物競(jìng)天擇、優(yōu)勝劣敗之公例，疾呼而棒喝之，以冀同胞之一悟。

3.4 評(píng)測(cè)標(biāo)準(zhǔn)

測(cè)試集中每個(gè)單句或段落之前有文言文和白話文的區(qū)別標(biāo)注。將測(cè)試集中的一個(gè)條目通過(guò)文言文和白話文的判別模型，將測(cè)試語(yǔ)句標(biāo)注為古漢語(yǔ)或現(xiàn)代漢語(yǔ)，然后和原語(yǔ)句標(biāo)注情況進(jìn)行比較，分別獲得白話文和文言文的正確率P、召回率R和F值。

正確率P＝提取出的正確信息條數(shù)／提取出的信息條數(shù)

召回率R＝提取出的正確信息條數(shù)／樣本中的信息條數(shù)

F值＝正確率＊召回率＊2／（正確率＋召回率）

3.5 基線0

將測(cè)試集的結(jié)果全部判斷為文言文或白話文。當(dāng)全部判斷為白話文時(shí)，白話文的正確率約為0.529，召回率為1，F(xiàn)值約為0.692；當(dāng)全部判斷為文言文時(shí)，文言文的正確率約為0.471，召回率為1，F(xiàn)值約為0.641。

在以下的實(shí)驗(yàn)中，測(cè)試集與訓(xùn)練語(yǔ)料均沒(méi)有交疊。

4 基于規(guī)則的方法

4.1 用字特征

漢語(yǔ)在漫長(zhǎng)的演變歷史中存在雙音化現(xiàn)象，也即越古老的文本中，越多的詞語(yǔ)為單音節(jié)詞，而越現(xiàn)代的則越多使用多音節(jié)詞（雙音為主）。在大多數(shù)情況下，古代的單音節(jié)詞在現(xiàn)代漢語(yǔ)的譯文中都以雙音節(jié)詞的形式出現(xiàn)。所以，在通常情況下，現(xiàn)代漢語(yǔ)的句長(zhǎng)長(zhǎng)于古漢語(yǔ)。以論語(yǔ)為例，原文總字?jǐn)?shù)為21 475字，某譯文總字?jǐn)?shù)為29 725。原文總字?jǐn)?shù)約占譯文總字?jǐn)?shù)的72.2%。

隨著語(yǔ)言的演變，常見(jiàn)字集的內(nèi)容出現(xiàn)了明顯的轉(zhuǎn)移。例如，文言文中常見(jiàn)的指示代詞“斯”、“彼”等，在白話文中逐漸被“這”、“那”等所取代；文言文中常用的人稱代詞“爾”、“其”等，在白話文中表示為“你”、“他”等。常見(jiàn)字的出現(xiàn)情況對(duì)古漢語(yǔ)、現(xiàn)代漢語(yǔ)的區(qū)分可以起到一定的參考作用［1］。

通常認(rèn)為，實(shí)詞往往具有鮮明的時(shí)代特征。但是在本文任務(wù)中，實(shí)詞需要謹(jǐn)慎對(duì)待。很多實(shí)詞，如“經(jīng)濟(jì)”、“民主”、“國(guó)家”等，看似可以成為白話文的特征詞，實(shí)則其歷史可追溯到中古乃至上古，只是其含義與今日不同罷了［11］。因而實(shí)詞反而不適合作為判別特征來(lái)使用。

4.2 句式分析

在文言文中，特殊句式主要有四種，分別為：判斷句、被動(dòng)句、倒裝句、省略句。有些句式可以用結(jié)句式直接表示出來(lái)，例如，判斷句“……者，……也”、“……也”等，被動(dòng)句“……見(jiàn)……于”、“為……所”等。還有一些無(wú)法用結(jié)句式直接表示出來(lái)，例如，倒裝句、省略句。

在現(xiàn)代漢語(yǔ)中，特殊句式有六種，分別為：把字句、被字句、連動(dòng)句、兼語(yǔ)句、判斷句，存現(xiàn)句。其中，把字句、被字句可以直接由“把”字、“被”字判斷，其他句式的判斷很難形式化。但是，由于白話文中“把”字、“被”字不僅僅是介詞，還會(huì)出現(xiàn)在其他詞語(yǔ)里，所以僅憑“把”字、“被”字很難確定是否是把字句、被字句。文言文的特殊句式對(duì)文言文、白話文的區(qū)分可以具有的參考價(jià)值相對(duì)較大［12－13］。因此本文在基于規(guī)則的方法中使用文言句式來(lái)進(jìn)行分析。

4.3 基于規(guī)則的實(shí)驗(yàn)

選取常見(jiàn)的古漢語(yǔ)24個(gè)虛詞：之、乎、者、也、耶、矣、哉、於、吾、汝、爾、而、何、乃、其、且、若、所、為、焉、以、因、于、則。但是我們注意到，許多現(xiàn)代漢語(yǔ)的詞中也包含有這些虛詞?？紤]到測(cè)試集本身不做分詞處理，我們從現(xiàn)代漢語(yǔ)詞典中匹配含有該虛詞的現(xiàn)漢詞語(yǔ)，形成一個(gè)排歧詞表。對(duì)于測(cè)試集句子，匹配到該虛詞，且又不是排歧詞表中的詞語(yǔ)，則虛詞數(shù)加1。匹配結(jié)束后，返回該句虛詞總數(shù)。

構(gòu)造句式函數(shù)，將測(cè)試句輸入。匹配測(cè)試句中是否出現(xiàn)下列句式：以“也”作為結(jié)尾，“……者，……也”，“為……所”，“無(wú)乃……于”。若出現(xiàn)一次句式，則句式數(shù)加1。匹配結(jié)束后，返回該句句式總數(shù)。

將測(cè)試集中的句子輸入虛詞函數(shù)和句式函數(shù)，若其中一個(gè)函數(shù)的返回結(jié)果大于0，則輸出句子為文言文，反之，輸出句子為白話文。

經(jīng)過(guò)測(cè)評(píng)，白話文的判斷正確率約為0.821，召回率約為0.458，F(xiàn)值約為0.588；文言文判斷的正確率約為0.594，召回率約為0.888，F(xiàn)值約為0.712。

由測(cè)評(píng)結(jié)果可知，通過(guò)虛詞和句式規(guī)則測(cè)評(píng)后，白話文判斷的正確率較高，但是召回率不足，文言文判斷的正確率不足，但是召回率較高。出現(xiàn)這種現(xiàn)象的原因主要有：1.文言文中的常用虛詞在白話文中仍有大量運(yùn)用，且還是作為虛詞運(yùn)用；2.文言文中的實(shí)詞在白話文中仍有運(yùn)用；3.文言文中存在不包含虛詞的單句。

這從一個(gè)側(cè)面上反映了現(xiàn)代漢語(yǔ)和古漢語(yǔ)之間沒(méi)有明確分界的事實(shí)。

4.4 基于規(guī)則的優(yōu)化實(shí)驗(yàn)

在基于規(guī)則的實(shí)驗(yàn)中，我們進(jìn)行兩方面的擴(kuò)充：1.虛詞。2.句式。

在虛詞的擴(kuò)充情況中，不僅僅考慮虛詞是否存在，而是將虛詞出現(xiàn)的次數(shù)與句長(zhǎng)聯(lián)系起來(lái)。虛詞集的內(nèi)容與4.3中相同，虛詞出現(xiàn)次數(shù)通過(guò)虛詞出現(xiàn)的次數(shù)減去含虛詞的白話文詞語(yǔ)（排歧詞表內(nèi)容）出現(xiàn)的個(gè)數(shù)得到，然后除以句子長(zhǎng)度。

在句式的擴(kuò)充情況中，將原來(lái)的四種句式擴(kuò)充為26種句式，包括：句首的“夫”、“若夫”、“且夫”、“今夫”、“孰”、“吾”；標(biāo)點(diǎn)前的“也”、“矣”、“焉”、“乎”、“諸”、“邪”、“哉”、“之”、“耶”、“曰”；以及固定搭配“如……何”、“若……何”、“奈……何”、“何以……為”、“何……之有”、“……者，……也”、“為……所”、“問(wèn)于”、“之以”、“無(wú)乃……于”。對(duì)測(cè)試集語(yǔ)句進(jìn)行匹配以考察其是否滿足句式。

在測(cè)試中，若滿足句式或者虛詞頻率大于閾值t，就判斷句子為文言文，否則，為白話文。本文對(duì)虛詞頻率的閾值t進(jìn)行了對(duì)比實(shí)驗(yàn)。

圖1是文言文正確率和F值在虛詞頻率的閾值t改變情況下的變化情況。橫坐標(biāo)為虛詞頻率的閾值，主縱坐標(biāo)為文言文F值，次縱坐標(biāo)為正確率。由圖可知，文言文正確率隨t值減小，F(xiàn)值在t＝0.08的情況下達(dá)到0.941。

圖1 文言文正確率和F值對(duì)比圖

圖2是白話文正確率和F值在虛詞頻率的閾值t改變情況下的對(duì)比圖。橫坐標(biāo)為虛詞頻率的閾值，主縱坐標(biāo)為白話文F值，次縱坐標(biāo)為白話文正確率。由圖2可知，白話文正確率隨t值減小而增大。白話文的F值在t＝0.08的情況下最高達(dá)到0.95。

綜上所述，當(dāng)虛詞頻率的閾值t為0.08時(shí)，優(yōu)化規(guī)則模型最優(yōu)。由4.3節(jié)可知，虛詞本身的存在對(duì)現(xiàn)代漢語(yǔ)的影響比較大，但是白話文的句長(zhǎng)普遍長(zhǎng)于文言文，且白話文虛詞數(shù)少于文言文的虛詞數(shù)。所以，虛詞數(shù)除以句長(zhǎng)得到的虛詞頻率在白話文中會(huì)遠(yuǎn)遠(yuǎn)小于文言文，因此t值可以發(fā)揮其分類作用。圖3為兩種規(guī)則方法和基線0的F值比較。

圖2 現(xiàn)代漢語(yǔ)正確率和F值對(duì)比圖

圖3 基線0、規(guī)則和優(yōu)化規(guī)則的F值

5 基于統(tǒng)計(jì)的方法

5.1 N－gram語(yǔ)言模型

本文在BCC語(yǔ)料庫(kù)古漢語(yǔ)頻道選取清代中期以前的文言文語(yǔ)料1.5億字（gbk編碼下約300M）和2000年前后的《人民日?qǐng)?bào)》語(yǔ)料1.5億字（gbk編碼下約300M）。我們使用Cambridge－CMU language toolkit實(shí)現(xiàn)了語(yǔ)言模型［14］。

選用單句測(cè)試集，在測(cè)試的過(guò)程中，將測(cè)試語(yǔ)句在一元、二元、三元狀況下頻率的log值相加作為分?jǐn)?shù)。將在文言模型和白話模型中得到的分?jǐn)?shù)對(duì)比。將句子標(biāo)記為得分較高的模型。例如，

有朋自遠(yuǎn)方來(lái)，不亦樂(lè)乎？

白話分值：－36.470 589

文言分值：－33.058 824

文言分值高于白話分值，則標(biāo)記為文言。

將標(biāo)記結(jié)果與測(cè)試語(yǔ)句人工標(biāo)注結(jié)果對(duì)比，得到模型的正確率、召回率和F值。從中選取F值最高，且大小適中的模型為最優(yōu)模型。本文認(rèn)為F值越大，模型測(cè)試的結(jié)果越好。

圖4是三元與二元語(yǔ)言模型的訓(xùn)練語(yǔ)料規(guī)模大小對(duì)標(biāo)注F值的影響。

圖4 三元與二元模型對(duì)比圖

在三元模型中，白話模型測(cè)試結(jié)果的F值隨模型語(yǔ)料的增大呈振蕩下降趨勢(shì)。在模型為50M時(shí)，F(xiàn)值最大，約為0.785；在模型為100M時(shí)，F(xiàn)值降為約0.590；當(dāng)模型為150M—300M時(shí)，F(xiàn)值保持在0.3—0.2左右。

文言模型測(cè)試結(jié)果的F值當(dāng)模型為100M時(shí)最大，約為0.751；當(dāng)模型為50M時(shí)，F(xiàn)值最小，約為0.557；當(dāng)模型為150M—300M時(shí)，F(xiàn)值保持在0.67左右。

在二元模型中，現(xiàn)漢模型測(cè)試結(jié)果的F值隨模型語(yǔ)料的增大所呈現(xiàn)的趨勢(shì)與三元模型相仿。文言模型測(cè)試結(jié)果的F值當(dāng)模型為100M時(shí)最大，最大值約為0.749；當(dāng)模型為50M時(shí)，F(xiàn)值最小，約為0.491；當(dāng)模型為150M—300M時(shí)，F(xiàn)值保持在0.67左右。

而一元語(yǔ)言模型的表現(xiàn)則呈現(xiàn)了巨大差異，白話模型測(cè)試結(jié)果的F值在模型為50M時(shí)為0，測(cè)試集沒(méi)有判斷為白話的結(jié)果，也即在較小的訓(xùn)練集上，文言文和白話文的用字差異無(wú)法得到體現(xiàn)；當(dāng)模型為100M時(shí)，F(xiàn)值最大，約為0.985；當(dāng)模型為150M—300M時(shí)，F(xiàn)值基本不變，保持在0.98左右。圖6為文言、白話在三元、二元、一元模型下最好F值的對(duì)比。

圖5 一元模型對(duì)比圖

圖6 語(yǔ)言模型元數(shù)對(duì)標(biāo)注F值的影響

其中，50M的白話模型在三元、二元情況下最優(yōu)，其余情況下，均為100M的古漢、現(xiàn)漢模型最優(yōu)。三元模型最好的F值，文言約為0.751，白話約為0.785。二元模型最好的F值，古漢約為0.749，現(xiàn)漢約為0.769。一元模型最好的F值，古漢約為0.985，白話約為0.986。

經(jīng)對(duì)比，在各模型不同元數(shù)下的標(biāo)注結(jié)果中，一元狀況下100M古漢現(xiàn)漢對(duì)比模型的標(biāo)注結(jié)果最優(yōu)。在接下來(lái)的實(shí)驗(yàn)中，主要針對(duì)100M模型進(jìn)行測(cè)試、標(biāo)注和優(yōu)化。

5.2 段落測(cè)試實(shí)驗(yàn)

用段落測(cè)試集測(cè)試100M語(yǔ)言模型，以檢測(cè)單句測(cè)試集中句子長(zhǎng)度對(duì)于模型標(biāo)注的偏差是否具有有限性。

圖7為100M文白對(duì)比模型通過(guò)段落測(cè)試集后，在一元、二元、三元情況下的測(cè)試結(jié)果。

圖7 段落測(cè)試集測(cè)試結(jié)果圖

100M模型經(jīng)過(guò)段落測(cè)試集測(cè)試，測(cè)試結(jié)果大致與在單句測(cè)試集中相似。在一元模型中，文言、白話識(shí)別的F值大于0.999，測(cè)試結(jié)果略優(yōu)于單句測(cè)試集。由此可見(jiàn)，100M一元模型情況下測(cè)試結(jié)果優(yōu)秀不是偶然情況。

用報(bào)章體測(cè)試集測(cè)試100M語(yǔ)言模型，以檢測(cè)報(bào)章體文學(xué)的用字特征。

圖8為100M文白對(duì)比模型通過(guò)報(bào)章體測(cè)試集后，在一元、二元、三元模型中的測(cè)試結(jié)果。

若報(bào)章體測(cè)試集被標(biāo)記為文言文，在100M模型中被標(biāo)注后，在一元、二元、三元模型中，F(xiàn)值均在0.9以上；若報(bào)章體測(cè)試集被標(biāo)記為現(xiàn)代漢語(yǔ)，F(xiàn)值最小為0.01，最大值為0.239。由此可知，報(bào)章體大多會(huì)被模型識(shí)別為文言文。

圖8 報(bào)章體測(cè)試集測(cè)試結(jié)果圖

據(jù)分析，報(bào)章體的主要句式基本與白話文相同，語(yǔ)法也與白話文類似。由于選用測(cè)試模型是基于字的統(tǒng)計(jì)模型，所以可以推測(cè)，報(bào)章體被判斷為文言文的主要原因是大量使用文言文的基本用詞。

5.3 基于機(jī)器學(xué)習(xí)的方法

本文還使用樸素貝葉斯、最大熵和決策樹(shù)（ID3算法）三種統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型①本部分的機(jī)器學(xué)習(xí)模型使用麻省大學(xué)的MALLET工具包實(shí)現(xiàn)［14］進(jìn)行了標(biāo)注實(shí)驗(yàn)。我們選取10M古漢語(yǔ)單句語(yǔ)料和10M現(xiàn)代漢語(yǔ)單句語(yǔ)料。使用特征為標(biāo)注、行號(hào)與字符串（基于字）。其中最大熵模型表現(xiàn)最好，F(xiàn)值達(dá)到了0.967和0.968。

圖10是本文所使用諸方法的測(cè)試結(jié)果。其中N－gram為使用一元模型時(shí)的結(jié)果?；€0和基線1的結(jié)果相差不太大?；€1在文言的標(biāo)注中優(yōu)于基線0，在白話文的標(biāo)注中弱于基線0，這與規(guī)則的使用情況有關(guān)，因?yàn)榛€1使用的規(guī)則主要是針對(duì)文言文特征的，而不考慮其對(duì)白話文特征的影響，所以對(duì)文言文的標(biāo)注較為有利。由優(yōu)化規(guī)則實(shí)驗(yàn)可以判斷出，規(guī)則方法對(duì)本任務(wù)確有意義，但是規(guī)則本身的尋找和優(yōu)化過(guò)程存在一定難度，需要進(jìn)行大量實(shí)驗(yàn)，得到較為完善的規(guī)則庫(kù)。

基于統(tǒng)計(jì)的模型標(biāo)注效果明顯優(yōu)于基線0和基線1，由此可以確定基于統(tǒng)計(jì)的實(shí)驗(yàn)有其研究的意義，且可以得到了一個(gè)相對(duì)較好的結(jié)果。Unigram模型的F值最高，達(dá)到0.98以上，是實(shí)驗(yàn)過(guò)程中構(gòu)建的最優(yōu)模型，且相較于樸素貝葉斯、最大熵和決策樹(shù)三個(gè)機(jī)器學(xué)習(xí)模型，計(jì)算成本和時(shí)間成本都很低。

圖9 樸素貝葉斯、最大熵、決策樹(shù)結(jié)果對(duì)比圖

圖10 分類方法結(jié)果分析圖

6 結(jié)論和展望

本文將文言文和白話文標(biāo)注問(wèn)題視作文本分類任務(wù)，通過(guò)基于規(guī)則和基于統(tǒng)計(jì)的方法進(jìn)行標(biāo)注。使用26種文言句式和24個(gè)文言虛詞構(gòu)成規(guī)則集，經(jīng)由白話文詞表進(jìn)行消歧，取得了一定的效果。在統(tǒng)計(jì)方中，本文使用了N－gram、樸素貝葉斯、決策樹(shù)、最大熵算法等幾種模型。實(shí)驗(yàn)發(fā)現(xiàn)基于統(tǒng)計(jì)的模型的標(biāo)注效果明顯優(yōu)于基線，且F值普遍較高。其中一元語(yǔ)言模型取得了0.98的F值。

本文的結(jié)論支持了語(yǔ)言學(xué)家一直以來(lái)的直覺(jué)判斷：即文言文的虛詞使用是使之區(qū)分于白話文的主要標(biāo)志，而非語(yǔ)法（或語(yǔ)序）。在語(yǔ)言演變過(guò)程中，最活躍的部分就是詞匯［16］，而語(yǔ)法變化則相對(duì)緩慢。本文的工作也以計(jì)量的方式實(shí)證地證實(shí)了由文言文和白話文的分野主要集中在詞匯層面這一判斷。在這一現(xiàn)象中起主要作用的是虛詞并少量動(dòng)詞（如“曰”）為代表的特征詞匯。從一個(gè)側(cè)面來(lái)說(shuō)，我們的工作實(shí)際描述了古代文言文到現(xiàn)代白話文作為一個(gè)連續(xù)統(tǒng)的存在性。

從本文標(biāo)注任務(wù)的結(jié)果來(lái)看，民國(guó)時(shí)期的報(bào)章體更適合被視作文言文。

未來(lái)計(jì)劃將規(guī)則方法和統(tǒng)計(jì)方法進(jìn)行融合，并對(duì)更多時(shí)間段不同語(yǔ)體（如詩(shī)歌）進(jìn)行測(cè)試，期待對(duì)這一問(wèn)題給出更圓滿的解決方案。

［1］王力著.中國(guó)語(yǔ)言學(xué)史［M］.上海：復(fù)旦大學(xué)出版社，2007.

［2］張普.論語(yǔ)言的穩(wěn)態(tài)［J］.鄭州大學(xué)學(xué)報(bào)（哲學(xué)社會(huì)科學(xué)版），2008，（02）：105－109.

［3］張普.論語(yǔ)言的動(dòng)態(tài)［J］.長(zhǎng)江學(xué)術(shù)，2008，（01）：1－9.

［4］石毓智.漢語(yǔ)發(fā)展史上的雙音化趨勢(shì)和動(dòng)補(bǔ)結(jié)構(gòu)的誕生——語(yǔ)音變化對(duì)語(yǔ)法發(fā)展的影響［J］.語(yǔ)言研究，2002，（02）：1－4.

［5］胡裕樹(shù)主編.現(xiàn)代漢語(yǔ)［M］.上海：上海教育出版社，1981.

［6］呂淑湘.現(xiàn)代漢語(yǔ)單雙音節(jié)問(wèn)題初探［J］.中國(guó)語(yǔ)文，1963，1：10－22.

［7］ Mihalcea R，Nastase V.Word epoch disambiguation：Finding how words change over time［C］／／Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics：Short Papers－Volume 2.Association for Computational Linguistics，2012：259－263.

［8］ Popescu O，Strapparava C.Behind the Times：Detecting Epoch Changes using Large Corpora［C］／／Proceedings of International Joint Conference on Natural Language Processing.2013：347－355.

［9］荀恩東，饒高琦，謝佳莉，等.現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng)的建設(shè)與應(yīng)用［J］.中文信息學(xué)報(bào)，2015，29（3）：169－176.

［10］饒高琦，臧嬌嬌，荀恩東.大數(shù)據(jù)視角下的語(yǔ)言實(shí)證工具：北語(yǔ)漢語(yǔ)語(yǔ)料庫(kù)系統(tǒng)BCC——以因果關(guān)系表達(dá)的語(yǔ)言模式研究為例［R］.北京：北京市語(yǔ)言學(xué)年會(huì)，2014.

［11］金觀濤，劉青峰.觀念史研究［M］.北京：法律出版社，2009.

［12］王力著.古代漢語(yǔ)［M］.北京：中華書局，1964.

［13］王力著.漢語(yǔ)史稿［M］.北京：中華書局，1980.

［14］ Clarkson P.Rosenfeld R.Statistical Language Modeling Using The Cmu－Cambridge Toolkit［C］／／Proceedings of Eurospeech.2000：2707－2710.

［15］ McCallum，Andrew Kachites.“MALLET：A Machine Learning for Language Toolkit.”［OL］.http：／／mallet.cs.umass.edu.2002.

［16］徐通鏘，葉蜚聲.語(yǔ)言學(xué)概論［M］.北京：北京大學(xué)出版社，1981.