亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文言信息的自動(dòng)抽取:基于統(tǒng)計(jì)和規(guī)則的嘗試

        2015-04-12 11:30:52虞寧翌饒高琦1荀恩東
        中文信息學(xué)報(bào) 2015年6期
        關(guān)鍵詞:白話文模型

        虞寧翌,饒高琦1,,荀恩東

        (1.北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院,北京100083;2.北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院,北京100083)

        1 引言

        中國(guó)語(yǔ)言由古代文言文到現(xiàn)代白話文經(jīng)過(guò)了近三千年的發(fā)展演變。排除字形的變化,語(yǔ)言本身在詞匯、語(yǔ)法和篇章層面都產(chǎn)生了巨大變化,但卻不失其連續(xù)性。這一特點(diǎn)使得在大時(shí)間跨度上研究漢語(yǔ)特征變化成為重要課題。對(duì)書面語(yǔ)進(jìn)行文言/白話標(biāo)注有助于對(duì)語(yǔ)言進(jìn)行歷時(shí)性的描寫,分析語(yǔ)言風(fēng)格,了解漢語(yǔ)書面語(yǔ)的發(fā)展情況。同時(shí)也方便對(duì)文言、白話混雜語(yǔ)料的分類和加工。

        傳統(tǒng)的語(yǔ)言學(xué)自省的方法有其固有的主觀、高成本和緩慢的局限性。在文言、白話分類標(biāo)注這一問(wèn)題中引入自然語(yǔ)言處理的成熟方法和模型,結(jié)合專家自省知識(shí),則有助于克服以上問(wèn)題。本文研究中發(fā)現(xiàn)的特征和方法反過(guò)來(lái)又可以深化對(duì)漢語(yǔ)演變作為一個(gè)連續(xù)統(tǒng)的認(rèn)識(shí),因而具有一定的理論價(jià)值。本文的研究在一定程度上驗(yàn)證了王力先生提出的觀點(diǎn),即文言與白話的分野不在詞匯與句式,而是虛詞系統(tǒng)[1]。

        在語(yǔ)料庫(kù)構(gòu)建的實(shí)踐中,我們?cè)庥隽宋难晕恼Z(yǔ)料和白話文語(yǔ)料混合的情況,這給語(yǔ)料庫(kù)的科學(xué)平衡構(gòu)建帶來(lái)了一定困難。在語(yǔ)言生活的調(diào)研工作中,社會(huì)大眾的文言使用情況是重要的調(diào)查目標(biāo)。在現(xiàn)代書面語(yǔ)寫作中文言、白話夾雜的現(xiàn)象也比比皆是,這給句法語(yǔ)義分析帶來(lái)很大困擾。因而在大規(guī)模語(yǔ)料中通過(guò)計(jì)算手段自動(dòng)標(biāo)注文言文/白話文也具有重要的實(shí)踐和工程價(jià)值。本文研究發(fā)現(xiàn)使用基于字的統(tǒng)計(jì)特征可以實(shí)現(xiàn)對(duì)文言文較為精確的標(biāo)注。

        文章的組織結(jié)構(gòu)如下:第2節(jié)簡(jiǎn)述了現(xiàn)有相關(guān)研究;第3節(jié)描述了語(yǔ)料和測(cè)試集的構(gòu)建;第4節(jié)描述了基于規(guī)則的方法;第5節(jié)描述基于統(tǒng)計(jì)的方法;第6節(jié)是結(jié)論與展望。

        2 研究現(xiàn)狀

        經(jīng)過(guò)調(diào)研,與本文研究方向相同的研究工作并不多,相關(guān)的研究方向有漢語(yǔ)年代劃分、用字特征、語(yǔ)言風(fēng)格、中文文本分類等方向。語(yǔ)言的發(fā)展是一個(gè)有序、緩慢、逐步演變的過(guò)程。社會(huì)語(yǔ)言學(xué)的理論揭示:語(yǔ)言是在穩(wěn)態(tài)中變化,在變化中保持穩(wěn)態(tài)。穩(wěn)態(tài)不同于靜態(tài)。自然語(yǔ)言處理通常關(guān)注共時(shí)語(yǔ)料,也即一個(gè)時(shí)間切片上的語(yǔ)言數(shù)據(jù)。大規(guī)模語(yǔ)料庫(kù)亦少對(duì)時(shí)間信息進(jìn)行標(biāo)注。而實(shí)際上,語(yǔ)言是不斷發(fā)展變化的。語(yǔ)料數(shù)據(jù)亦有其時(shí)效性。這不僅表現(xiàn)在詞匯短語(yǔ)的分布上,也表現(xiàn)在語(yǔ)義乃至語(yǔ)言風(fēng)格上[2-3]。

        石毓智對(duì)漢語(yǔ)發(fā)展的雙音化趨勢(shì)和動(dòng)補(bǔ)結(jié)構(gòu)進(jìn)行了探究。漢語(yǔ)的雙音化并非一蹴而就,是自漢代以來(lái)逐漸發(fā)展的[4]。胡裕樹(shù)在1981年對(duì)雙音化情況進(jìn)行過(guò)統(tǒng)計(jì),不計(jì)詞類區(qū)別,在3 000個(gè)最常用的詞中,75%是雙音節(jié)詞,還有大量未列入的雙音節(jié)常用詞。總體上說(shuō),雙音詞占漢語(yǔ)詞匯的80%以上[5]。呂叔湘在1961年提出,在很多情況下,單音節(jié)詞只有加上一個(gè)音節(jié)(詞綴)才能獨(dú)立成詞或作為句子成分[6]。

        2012年和2013年,Mihalcea等和Popescu等[7-8]提出了時(shí)代消歧和時(shí)代檢測(cè)兩個(gè)任務(wù)及其基線。前者使用多種Welch測(cè)試、Run測(cè)試、最小二乘、Ratio、斯皮爾曼和Kendall測(cè)試等統(tǒng)計(jì)方法來(lái)判斷重要詞語(yǔ)(尤其是政治相關(guān)詞語(yǔ))在近兩百年的Google N-gram Corpus的分布,以判斷其是否隨機(jī),由此來(lái)進(jìn)行歷史時(shí)期分割。Mihalcea等提出的時(shí)代消歧任務(wù)是在詞語(yǔ)中挑選出具有時(shí)代區(qū)分力的詞語(yǔ)。

        在歷時(shí)語(yǔ)料的建設(shè)方面,北京語(yǔ)言大學(xué)建立的現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng),使用了《貴州日?qǐng)?bào)》《福建日?qǐng)?bào)》和《人民日?qǐng)?bào)》共計(jì)8億字、4.7億詞,并提供在線檢索①http://nlp.blcu.edu.cn/historical20%computing。時(shí)間跨度為1949—2013年[9]。北語(yǔ)漢語(yǔ)語(yǔ)料庫(kù)BCC的文學(xué)頻道則收集了時(shí)間跨度約為100年的文學(xué)語(yǔ)料24億字,并提供在線檢索[10]②http://bcc.blcu.edu.cn/index.php?corpus=1。

        3 測(cè)試集與統(tǒng)計(jì)基線

        3.1 單句測(cè)試集

        單句測(cè)試集包括1 372句文言文和1 538句白話文,共有2 900句,文言文和白話文的數(shù)量大致平衡。文言文部分選用了《論語(yǔ)》中的單句。《論語(yǔ)》形成于我國(guó)春秋時(shí)期,是最早的語(yǔ)錄體文集,記錄了孔子及其弟子的言行。《論語(yǔ)》作為儒家經(jīng)典文學(xué),有悠久的歷史,其中沒(méi)有白話文成分,是典型的文言作品。《論語(yǔ)》有較為成熟的句讀,易于程序切分為單句,方便使用,白話文部分采集自《人民日?qǐng)?bào)》。《人民日?qǐng)?bào)》是我國(guó)第一大報(bào),使用了典范的現(xiàn)代漢語(yǔ)白話文,用字用詞十分規(guī)范。

        測(cè)試集的句子長(zhǎng)度保持在5—100字之間。若句長(zhǎng)小于5個(gè)字,句子中可判斷特征不明顯,實(shí)際可判斷力過(guò)差,會(huì)降低測(cè)試結(jié)果的有效性??紤]單句的實(shí)際情況,句長(zhǎng)超過(guò)100字的現(xiàn)象并不常見(jiàn)。古漢語(yǔ)的平均句長(zhǎng)通常小于現(xiàn)代漢語(yǔ)的平均句長(zhǎng)。若采用大量特殊的過(guò)長(zhǎng)現(xiàn)代漢語(yǔ)作為測(cè)試集,可能影響標(biāo)注,再則缺乏效力。

        測(cè)試集樣例:

        文言文:<文> 有朋自遠(yuǎn)方來(lái),不亦樂(lè)乎?

        <文> 孝弟也者,其為仁之本與!

        白話文:<白> 那么,增收的原因何在?

        <白> 移風(fēng)易俗,提倡健康文明的生活習(xí)慣!

        3.2 段落測(cè)試集

        段落測(cè)試集包括1 050段古漢語(yǔ)和1 050段現(xiàn)代漢語(yǔ),共2 100段,古漢語(yǔ)和現(xiàn)代漢語(yǔ)的數(shù)量持平。文言文部分選用了《古文觀止》和《全唐文》的段落?!豆盼挠^止》是歷代文言散文的精選集,清康熙年間編纂;《全唐文》是唐代及五代十國(guó)的文言散文,清嘉慶年間編纂。兩者均為清代中期前編纂,選文于上古和中古漢語(yǔ),是典范的文言文作品,不包含白話文,而且其段落長(zhǎng)度適中,適宜被選作段落測(cè)試集。

        白話文部分選用了《人民日?qǐng)?bào)》和《王朔文集》的段落?!度嗣袢?qǐng)?bào)》的段落中包含較多阿拉伯?dāng)?shù)字和字母,在文言文中沒(méi)有阿拉伯?dāng)?shù)字和字母,因而不宜在測(cè)試集中使用,在尋找純漢字段落之外,我們還引入了《王朔文集》。王朔從20世紀(jì)80年代開(kāi)始寫作,作品內(nèi)容為典型的當(dāng)代白話文。《現(xiàn)代漢語(yǔ)》等教材亦多使用其內(nèi)容做例句、例文。

        測(cè)試集中,段落長(zhǎng)度基本保持在100—300字之間。段落測(cè)試集格式與單句測(cè)試集相同。段落測(cè)試集僅用于對(duì)單句測(cè)試集結(jié)果的補(bǔ)充驗(yàn)證。

        3.3 報(bào)章體測(cè)試集

        報(bào)章體測(cè)試集包括1 000段梁?jiǎn)⒊淖髌?。梁?jiǎn)⒊菆?bào)章體文學(xué)的代表人物,他的作品文白相間,在近代中國(guó)具有很大的影響力。測(cè)試集被同時(shí)標(biāo)為文言文和白話文兩種形式,用于測(cè)試。段落長(zhǎng)度基本保持在100—300字之間。該測(cè)試集并不用于測(cè)試方法性能,僅用于研究報(bào)章體文學(xué)的用字特性。

        測(cè)試集舉例如下所示。

        <白>|<文> 四曰厲國(guó)恥。務(wù)使吾國(guó)民知我國(guó)在世界上之位置,知東西列強(qiáng)待我國(guó)之政策,鑒觀既往,熟察現(xiàn)在,以圖將來(lái)。內(nèi)其國(guó)而外諸邦,一以天演學(xué)物競(jìng)天擇、優(yōu)勝劣敗之公例,疾呼而棒喝之,以冀同胞之一悟。

        3.4 評(píng)測(cè)標(biāo)準(zhǔn)

        測(cè)試集中每個(gè)單句或段落之前有文言文和白話文的區(qū)別標(biāo)注。將測(cè)試集中的一個(gè)條目通過(guò)文言文和白話文的判別模型,將測(cè)試語(yǔ)句標(biāo)注為古漢語(yǔ)或現(xiàn)代漢語(yǔ),然后和原語(yǔ)句標(biāo)注情況進(jìn)行比較,分別獲得白話文和文言文的正確率P、召回率R和F值。

        正確率P=提取出的正確信息條數(shù)/提取出的信息條數(shù)

        召回率R=提取出的正確信息條數(shù)/樣本中的信息條數(shù)

        F值=正確率*召回率*2/(正確率+召回率)

        3.5 基線0

        將測(cè)試集的結(jié)果全部判斷為文言文或白話文。當(dāng)全部判斷為白話文時(shí),白話文的正確率約為0.529,召回率為1,F(xiàn)值約為0.692;當(dāng)全部判斷為文言文時(shí),文言文的正確率約為0.471,召回率為1,F(xiàn)值約為0.641。

        在以下的實(shí)驗(yàn)中,測(cè)試集與訓(xùn)練語(yǔ)料均沒(méi)有交疊。

        4 基于規(guī)則的方法

        4.1 用字特征

        漢語(yǔ)在漫長(zhǎng)的演變歷史中存在雙音化現(xiàn)象,也即越古老的文本中,越多的詞語(yǔ)為單音節(jié)詞,而越現(xiàn)代的則越多使用多音節(jié)詞(雙音為主)。在大多數(shù)情況下,古代的單音節(jié)詞在現(xiàn)代漢語(yǔ)的譯文中都以雙音節(jié)詞的形式出現(xiàn)。所以,在通常情況下,現(xiàn)代漢語(yǔ)的句長(zhǎng)長(zhǎng)于古漢語(yǔ)。以論語(yǔ)為例,原文總字?jǐn)?shù)為21 475字,某譯文總字?jǐn)?shù)為29 725。原文總字?jǐn)?shù)約占譯文總字?jǐn)?shù)的72.2%。

        隨著語(yǔ)言的演變,常見(jiàn)字集的內(nèi)容出現(xiàn)了明顯的轉(zhuǎn)移。例如,文言文中常見(jiàn)的指示代詞“斯”、“彼”等,在白話文中逐漸被“這”、“那”等所取代;文言文中常用的人稱代詞“爾”、“其”等,在白話文中表示為“你”、“他”等。常見(jiàn)字的出現(xiàn)情況對(duì)古漢語(yǔ)、現(xiàn)代漢語(yǔ)的區(qū)分可以起到一定的參考作用[1]。

        通常認(rèn)為,實(shí)詞往往具有鮮明的時(shí)代特征。但是在本文任務(wù)中,實(shí)詞需要謹(jǐn)慎對(duì)待。很多實(shí)詞,如“經(jīng)濟(jì)”、“民主”、“國(guó)家”等,看似可以成為白話文的特征詞,實(shí)則其歷史可追溯到中古乃至上古,只是其含義與今日不同罷了[11]。因而實(shí)詞反而不適合作為判別特征來(lái)使用。

        4.2 句式分析

        在文言文中,特殊句式主要有四種,分別為:判斷句、被動(dòng)句、倒裝句、省略句。有些句式可以用結(jié)句式直接表示出來(lái),例如,判斷句“……者,……也”、“……也”等,被動(dòng)句“……見(jiàn)……于”、“為……所”等。還有一些無(wú)法用結(jié)句式直接表示出來(lái),例如,倒裝句、省略句。

        在現(xiàn)代漢語(yǔ)中,特殊句式有六種,分別為:把字句、被字句、連動(dòng)句、兼語(yǔ)句、判斷句,存現(xiàn)句。其中,把字句、被字句可以直接由“把”字、“被”字判斷,其他句式的判斷很難形式化。但是,由于白話文中“把”字、“被”字不僅僅是介詞,還會(huì)出現(xiàn)在其他詞語(yǔ)里,所以僅憑“把”字、“被”字很難確定是否是把字句、被字句。文言文的特殊句式對(duì)文言文、白話文的區(qū)分可以具有的參考價(jià)值相對(duì)較大[12-13]。因此本文在基于規(guī)則的方法中使用文言句式來(lái)進(jìn)行分析。

        4.3 基于規(guī)則的實(shí)驗(yàn)

        選取常見(jiàn)的古漢語(yǔ)24個(gè)虛詞:之、乎、者、也、耶、矣、哉、於、吾、汝、爾、而、何、乃、其、且、若、所、為、焉、以、因、于、則。但是我們注意到,許多現(xiàn)代漢語(yǔ)的詞中也包含有這些虛詞??紤]到測(cè)試集本身不做分詞處理,我們從現(xiàn)代漢語(yǔ)詞典中匹配含有該虛詞的現(xiàn)漢詞語(yǔ),形成一個(gè)排歧詞表。對(duì)于測(cè)試集句子,匹配到該虛詞,且又不是排歧詞表中的詞語(yǔ),則虛詞數(shù)加1。匹配結(jié)束后,返回該句虛詞總數(shù)。

        構(gòu)造句式函數(shù),將測(cè)試句輸入。匹配測(cè)試句中是否出現(xiàn)下列句式:以“也”作為結(jié)尾,“……者,……也”,“為……所”,“無(wú)乃……于”。若出現(xiàn)一次句式,則句式數(shù)加1。匹配結(jié)束后,返回該句句式總數(shù)。

        將測(cè)試集中的句子輸入虛詞函數(shù)和句式函數(shù),若其中一個(gè)函數(shù)的返回結(jié)果大于0,則輸出句子為文言文,反之,輸出句子為白話文。

        經(jīng)過(guò)測(cè)評(píng),白話文的判斷正確率約為0.821,召回率約為0.458,F(xiàn)值約為0.588;文言文判斷的正確率約為0.594,召回率約為0.888,F(xiàn)值約為0.712。

        由測(cè)評(píng)結(jié)果可知,通過(guò)虛詞和句式規(guī)則測(cè)評(píng)后,白話文判斷的正確率較高,但是召回率不足,文言文判斷的正確率不足,但是召回率較高。出現(xiàn)這種現(xiàn)象的原因主要有:1.文言文中的常用虛詞在白話文中仍有大量運(yùn)用,且還是作為虛詞運(yùn)用;2.文言文中的實(shí)詞在白話文中仍有運(yùn)用;3.文言文中存在不包含虛詞的單句。

        這從一個(gè)側(cè)面上反映了現(xiàn)代漢語(yǔ)和古漢語(yǔ)之間沒(méi)有明確分界的事實(shí)。

        4.4 基于規(guī)則的優(yōu)化實(shí)驗(yàn)

        在基于規(guī)則的實(shí)驗(yàn)中,我們進(jìn)行兩方面的擴(kuò)充:1.虛詞。2.句式。

        在虛詞的擴(kuò)充情況中,不僅僅考慮虛詞是否存在,而是將虛詞出現(xiàn)的次數(shù)與句長(zhǎng)聯(lián)系起來(lái)。虛詞集的內(nèi)容與4.3中相同,虛詞出現(xiàn)次數(shù)通過(guò)虛詞出現(xiàn)的次數(shù)減去含虛詞的白話文詞語(yǔ)(排歧詞表內(nèi)容)出現(xiàn)的個(gè)數(shù)得到,然后除以句子長(zhǎng)度。

        在句式的擴(kuò)充情況中,將原來(lái)的四種句式擴(kuò)充為26種句式,包括:句首的“夫”、“若夫”、“且夫”、“今夫”、“孰”、“吾”;標(biāo)點(diǎn)前的“也”、“矣”、“焉”、“乎”、“諸”、“邪”、“哉”、“之”、“耶”、“曰”;以及固定搭配“如……何”、“若……何”、“奈……何”、“何以……為”、“何……之有”、“……者,……也”、“為……所”、“問(wèn)于”、“之以”、“無(wú)乃……于”。對(duì)測(cè)試集語(yǔ)句進(jìn)行匹配以考察其是否滿足句式。

        在測(cè)試中,若滿足句式或者虛詞頻率大于閾值t,就判斷句子為文言文,否則,為白話文。本文對(duì)虛詞頻率的閾值t進(jìn)行了對(duì)比實(shí)驗(yàn)。

        圖1是文言文正確率和F值在虛詞頻率的閾值t改變情況下的變化情況。橫坐標(biāo)為虛詞頻率的閾值,主縱坐標(biāo)為文言文F值,次縱坐標(biāo)為正確率。由圖可知,文言文正確率隨t值減小,F(xiàn)值在t=0.08的情況下達(dá)到0.941。

        圖1 文言文正確率和F值對(duì)比圖

        圖2是白話文正確率和F值在虛詞頻率的閾值t改變情況下的對(duì)比圖。橫坐標(biāo)為虛詞頻率的閾值,主縱坐標(biāo)為白話文F值,次縱坐標(biāo)為白話文正確率。由圖2可知,白話文正確率隨t值減小而增大。白話文的F值在t=0.08的情況下最高達(dá)到0.95。

        綜上所述,當(dāng)虛詞頻率的閾值t為0.08時(shí),優(yōu)化規(guī)則模型最優(yōu)。由4.3節(jié)可知,虛詞本身的存在對(duì)現(xiàn)代漢語(yǔ)的影響比較大,但是白話文的句長(zhǎng)普遍長(zhǎng)于文言文,且白話文虛詞數(shù)少于文言文的虛詞數(shù)。所以,虛詞數(shù)除以句長(zhǎng)得到的虛詞頻率在白話文中會(huì)遠(yuǎn)遠(yuǎn)小于文言文,因此t值可以發(fā)揮其分類作用。圖3為兩種規(guī)則方法和基線0的F值比較。

        圖2 現(xiàn)代漢語(yǔ)正確率和F值對(duì)比圖

        圖3 基線0、規(guī)則和優(yōu)化規(guī)則的F值

        5 基于統(tǒng)計(jì)的方法

        5.1 N-gram語(yǔ)言模型

        本文在BCC語(yǔ)料庫(kù)古漢語(yǔ)頻道選取清代中期以前的文言文語(yǔ)料1.5億字(gbk編碼下約300M)和2000年前后的《人民日?qǐng)?bào)》語(yǔ)料1.5億字(gbk編碼下約300M)。我們使用Cambridge-CMU language toolkit實(shí)現(xiàn)了語(yǔ)言模型[14]。

        選用單句測(cè)試集,在測(cè)試的過(guò)程中,將測(cè)試語(yǔ)句在一元、二元、三元狀況下頻率的log值相加作為分?jǐn)?shù)。將在文言模型和白話模型中得到的分?jǐn)?shù)對(duì)比。將句子標(biāo)記為得分較高的模型。例如,

        有朋自遠(yuǎn)方來(lái),不亦樂(lè)乎?

        白話分值:-36.470 589

        文言分值:-33.058 824

        文言分值高于白話分值,則標(biāo)記為文言。

        將標(biāo)記結(jié)果與測(cè)試語(yǔ)句人工標(biāo)注結(jié)果對(duì)比,得到模型的正確率、召回率和F值。從中選取F值最高,且大小適中的模型為最優(yōu)模型。本文認(rèn)為F值越大,模型測(cè)試的結(jié)果越好。

        圖4是三元與二元語(yǔ)言模型的訓(xùn)練語(yǔ)料規(guī)模大小對(duì)標(biāo)注F值的影響。

        圖4 三元與二元模型對(duì)比圖

        在三元模型中,白話模型測(cè)試結(jié)果的F值隨模型語(yǔ)料的增大呈振蕩下降趨勢(shì)。在模型為50M時(shí),F(xiàn)值最大,約為0.785;在模型為100M時(shí),F(xiàn)值降為約0.590;當(dāng)模型為150M—300M時(shí),F(xiàn)值保持在0.3—0.2左右。

        文言模型測(cè)試結(jié)果的F值當(dāng)模型為100M時(shí)最大,約為0.751;當(dāng)模型為50M時(shí),F(xiàn)值最小,約為0.557;當(dāng)模型為150M—300M時(shí),F(xiàn)值保持在0.67左右。

        在二元模型中,現(xiàn)漢模型測(cè)試結(jié)果的F值隨模型語(yǔ)料的增大所呈現(xiàn)的趨勢(shì)與三元模型相仿。文言模型測(cè)試結(jié)果的F值當(dāng)模型為100M時(shí)最大,最大值約為0.749;當(dāng)模型為50M時(shí),F(xiàn)值最小,約為0.491;當(dāng)模型為150M—300M時(shí),F(xiàn)值保持在0.67左右。

        而一元語(yǔ)言模型的表現(xiàn)則呈現(xiàn)了巨大差異,白話模型測(cè)試結(jié)果的F值在模型為50M時(shí)為0,測(cè)試集沒(méi)有判斷為白話的結(jié)果,也即在較小的訓(xùn)練集上,文言文和白話文的用字差異無(wú)法得到體現(xiàn);當(dāng)模型為100M時(shí),F(xiàn)值最大,約為0.985;當(dāng)模型為150M—300M時(shí),F(xiàn)值基本不變,保持在0.98左右。圖6為文言、白話在三元、二元、一元模型下最好F值的對(duì)比。

        圖5 一元模型對(duì)比圖

        圖6 語(yǔ)言模型元數(shù)對(duì)標(biāo)注F值的影響

        其中,50M的白話模型在三元、二元情況下最優(yōu),其余情況下,均為100M的古漢、現(xiàn)漢模型最優(yōu)。三元模型最好的F值,文言約為0.751,白話約為0.785。二元模型最好的F值,古漢約為0.749,現(xiàn)漢約為0.769。一元模型最好的F值,古漢約為0.985,白話約為0.986。

        經(jīng)對(duì)比,在各模型不同元數(shù)下的標(biāo)注結(jié)果中,一元狀況下100M古漢現(xiàn)漢對(duì)比模型的標(biāo)注結(jié)果最優(yōu)。在接下來(lái)的實(shí)驗(yàn)中,主要針對(duì)100M模型進(jìn)行測(cè)試、標(biāo)注和優(yōu)化。

        5.2 段落測(cè)試實(shí)驗(yàn)

        用段落測(cè)試集測(cè)試100M語(yǔ)言模型,以檢測(cè)單句測(cè)試集中句子長(zhǎng)度對(duì)于模型標(biāo)注的偏差是否具有有限性。

        圖7為100M文白對(duì)比模型通過(guò)段落測(cè)試集后,在一元、二元、三元情況下的測(cè)試結(jié)果。

        圖7 段落測(cè)試集測(cè)試結(jié)果圖

        100M模型經(jīng)過(guò)段落測(cè)試集測(cè)試,測(cè)試結(jié)果大致與在單句測(cè)試集中相似。在一元模型中,文言、白話識(shí)別的F值大于0.999,測(cè)試結(jié)果略優(yōu)于單句測(cè)試集。由此可見(jiàn),100M一元模型情況下測(cè)試結(jié)果優(yōu)秀不是偶然情況。

        用報(bào)章體測(cè)試集測(cè)試100M語(yǔ)言模型,以檢測(cè)報(bào)章體文學(xué)的用字特征。

        圖8為100M文白對(duì)比模型通過(guò)報(bào)章體測(cè)試集后,在一元、二元、三元模型中的測(cè)試結(jié)果。

        若報(bào)章體測(cè)試集被標(biāo)記為文言文,在100M模型中被標(biāo)注后,在一元、二元、三元模型中,F(xiàn)值均在0.9以上;若報(bào)章體測(cè)試集被標(biāo)記為現(xiàn)代漢語(yǔ),F(xiàn)值最小為0.01,最大值為0.239。由此可知,報(bào)章體大多會(huì)被模型識(shí)別為文言文。

        圖8 報(bào)章體測(cè)試集測(cè)試結(jié)果圖

        據(jù)分析,報(bào)章體的主要句式基本與白話文相同,語(yǔ)法也與白話文類似。由于選用測(cè)試模型是基于字的統(tǒng)計(jì)模型,所以可以推測(cè),報(bào)章體被判斷為文言文的主要原因是大量使用文言文的基本用詞。

        5.3 基于機(jī)器學(xué)習(xí)的方法

        本文還使用樸素貝葉斯、最大熵和決策樹(shù)(ID3算法)三種統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型①本部分的機(jī)器學(xué)習(xí)模型使用麻省大學(xué)的MALLET工具包實(shí)現(xiàn)[14]進(jìn)行了標(biāo)注實(shí)驗(yàn)。我們選取10M古漢語(yǔ)單句語(yǔ)料和10M現(xiàn)代漢語(yǔ)單句語(yǔ)料。使用特征為標(biāo)注、行號(hào)與字符串(基于字)。其中最大熵模型表現(xiàn)最好,F(xiàn)值達(dá)到了0.967和0.968。

        圖10是本文所使用諸方法的測(cè)試結(jié)果。其中N-gram為使用一元模型時(shí)的結(jié)果?;€0和基線1的結(jié)果相差不太大?;€1在文言的標(biāo)注中優(yōu)于基線0,在白話文的標(biāo)注中弱于基線0,這與規(guī)則的使用情況有關(guān),因?yàn)榛€1使用的規(guī)則主要是針對(duì)文言文特征的,而不考慮其對(duì)白話文特征的影響,所以對(duì)文言文的標(biāo)注較為有利。由優(yōu)化規(guī)則實(shí)驗(yàn)可以判斷出,規(guī)則方法對(duì)本任務(wù)確有意義,但是規(guī)則本身的尋找和優(yōu)化過(guò)程存在一定難度,需要進(jìn)行大量實(shí)驗(yàn),得到較為完善的規(guī)則庫(kù)。

        基于統(tǒng)計(jì)的模型標(biāo)注效果明顯優(yōu)于基線0和基線1,由此可以確定基于統(tǒng)計(jì)的實(shí)驗(yàn)有其研究的意義,且可以得到了一個(gè)相對(duì)較好的結(jié)果。Unigram模型的F值最高,達(dá)到0.98以上,是實(shí)驗(yàn)過(guò)程中構(gòu)建的最優(yōu)模型,且相較于樸素貝葉斯、最大熵和決策樹(shù)三個(gè)機(jī)器學(xué)習(xí)模型,計(jì)算成本和時(shí)間成本都很低。

        圖9 樸素貝葉斯、最大熵、決策樹(shù)結(jié)果對(duì)比圖

        圖10 分類方法結(jié)果分析圖

        6 結(jié)論和展望

        本文將文言文和白話文標(biāo)注問(wèn)題視作文本分類任務(wù),通過(guò)基于規(guī)則和基于統(tǒng)計(jì)的方法進(jìn)行標(biāo)注。使用26種文言句式和24個(gè)文言虛詞構(gòu)成規(guī)則集,經(jīng)由白話文詞表進(jìn)行消歧,取得了一定的效果。在統(tǒng)計(jì)方中,本文使用了N-gram、樸素貝葉斯、決策樹(shù)、最大熵算法等幾種模型。實(shí)驗(yàn)發(fā)現(xiàn)基于統(tǒng)計(jì)的模型的標(biāo)注效果明顯優(yōu)于基線,且F值普遍較高。其中一元語(yǔ)言模型取得了0.98的F值。

        本文的結(jié)論支持了語(yǔ)言學(xué)家一直以來(lái)的直覺(jué)判斷:即文言文的虛詞使用是使之區(qū)分于白話文的主要標(biāo)志,而非語(yǔ)法(或語(yǔ)序)。在語(yǔ)言演變過(guò)程中,最活躍的部分就是詞匯[16],而語(yǔ)法變化則相對(duì)緩慢。本文的工作也以計(jì)量的方式實(shí)證地證實(shí)了由文言文和白話文的分野主要集中在詞匯層面這一判斷。在這一現(xiàn)象中起主要作用的是虛詞并少量動(dòng)詞(如“曰”)為代表的特征詞匯。從一個(gè)側(cè)面來(lái)說(shuō),我們的工作實(shí)際描述了古代文言文到現(xiàn)代白話文作為一個(gè)連續(xù)統(tǒng)的存在性。

        從本文標(biāo)注任務(wù)的結(jié)果來(lái)看,民國(guó)時(shí)期的報(bào)章體更適合被視作文言文。

        未來(lái)計(jì)劃將規(guī)則方法和統(tǒng)計(jì)方法進(jìn)行融合,并對(duì)更多時(shí)間段不同語(yǔ)體(如詩(shī)歌)進(jìn)行測(cè)試,期待對(duì)這一問(wèn)題給出更圓滿的解決方案。

        [1] 王力著.中國(guó)語(yǔ)言學(xué)史[M].上海:復(fù)旦大學(xué)出版社,2007.

        [2] 張普.論語(yǔ)言的穩(wěn)態(tài)[J].鄭州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2008,(02):105-109.

        [3] 張普.論語(yǔ)言的動(dòng)態(tài)[J].長(zhǎng)江學(xué)術(shù),2008,(01):1-9.

        [4] 石毓智.漢語(yǔ)發(fā)展史上的雙音化趨勢(shì)和動(dòng)補(bǔ)結(jié)構(gòu)的誕生——語(yǔ)音變化對(duì)語(yǔ)法發(fā)展的影響[J].語(yǔ)言研究,2002,(02):1-4.

        [5] 胡裕樹(shù)主編.現(xiàn)代漢語(yǔ)[M].上海:上海教育出版社,1981.

        [6] 呂淑湘.現(xiàn)代漢語(yǔ)單雙音節(jié)問(wèn)題初探[J].中國(guó)語(yǔ)文,1963,1:10-22.

        [7] Mihalcea R,Nastase V.Word epoch disambiguation:Finding how words change over time[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Short Papers-Volume 2.Association for Computational Linguistics,2012:259-263.

        [8] Popescu O,Strapparava C.Behind the Times:Detecting Epoch Changes using Large Corpora[C]//Proceedings of International Joint Conference on Natural Language Processing.2013:347-355.

        [9] 荀恩東,饒高琦,謝佳莉,等.現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng)的建設(shè)與應(yīng)用[J].中文信息學(xué)報(bào),2015,29(3):169-176.

        [10] 饒高琦,臧嬌嬌,荀恩東.大數(shù)據(jù)視角下的語(yǔ)言實(shí)證工具:北語(yǔ)漢語(yǔ)語(yǔ)料庫(kù)系統(tǒng)BCC——以因果關(guān)系表達(dá)的語(yǔ)言模式研究為例[R].北京:北京市語(yǔ)言學(xué)年會(huì),2014.

        [11] 金觀濤,劉青峰.觀念史研究[M].北京:法律出版社,2009.

        [12] 王力著.古代漢語(yǔ)[M].北京:中華書局,1964.

        [13] 王力著.漢語(yǔ)史稿[M].北京:中華書局,1980.

        [14] Clarkson P.Rosenfeld R.Statistical Language Modeling Using The Cmu-Cambridge Toolkit[C]//Proceedings of Eurospeech.2000:2707-2710.

        [15] McCallum,Andrew Kachites.“MALLET:A Machine Learning for Language Toolkit.”[OL].http://mallet.cs.umass.edu.2002.

        [16] 徐通鏘,葉蜚聲.語(yǔ)言學(xué)概論[M].北京:北京大學(xué)出版社,1981.

        猜你喜歡
        白話文模型
        一半模型
        重要模型『一線三等角』
        史海
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        白話文教育背景下的中小學(xué)生《紅樓夢(mèng)》閱讀
        3D打印中的模型分割與打包
        胡適妙解白話
        胡適巧推白話文
        黨員文摘(2016年3期)2016-03-12 21:58:22
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        胡適妙解白話
        做人與處世(2015年4期)2015-09-10 07:22:44
        国产xxxxx在线观看| 女同在线视频一区二区| 日本免费一区二区三区在线播放| 天堂国产一区二区三区| 亚洲色欲色欲www在线播放| 亚洲欧美日韩国产一区二区精品| 国产大全一区二区三区| 久久精品人搡人妻人少妇| av 日韩 人妻 黑人 综合 无码| 欧美在线三级艳情网站| 女人被躁到高潮嗷嗷叫免费软| 日本午夜艺术一区二区| 一本色道久久综合狠狠躁篇| 久久人人爽人人爽人人av东京热 | 91白浆在线视频| 亚洲最大的av在线观看| 亚洲av无码国产精品色| 日本50岁丰满熟妇xxxx | 国产喷白浆精品一区二区| 亚洲精品在线视频一区二区| 国产永久免费高清在线| 国产呦精品系列在线播放| 久久国产精品一区二区| 国产91人妻一区二区三区| 卡一卡二卡三无人区| 亚洲欧美在线观看一区二区| 日本顶级片一区二区三区| 国产精品国产三级国产av剧情| 色欲av亚洲一区无码少妇| 国产成人亚洲精品2020| 论理视频二区三区四区在线观看| 亚洲综合色婷婷七月丁香| 国产草草视频| 日本一级二级三级在线| 国产成人a级毛片| 欧美freesex黑人又粗又大| 无遮高潮国产免费观看韩国| 一区二区三区国产色综合| 精品www日韩熟女人妻| 男人j进女人p免费视频| 亚洲乱码中文字幕第一页|