閆偉,楊秀梅
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610000;2.中國(guó)科學(xué)院大學(xué),北京 100049)
一種適用于唐詩(shī)詩(shī)句分詞方法的研究
閆偉1,楊秀梅2
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610000;2.中國(guó)科學(xué)院大學(xué),北京100049)
隨著自然語(yǔ)言處理技術(shù)的發(fā)展,文學(xué)性語(yǔ)言的計(jì)算機(jī)處理作為自然語(yǔ)言處理的分支擺在了學(xué)術(shù)界的面前。但由于漢語(yǔ)連續(xù)書寫的習(xí)慣,構(gòu)建適合計(jì)算機(jī)處理的詩(shī)詞語(yǔ)料庫(kù)成為后續(xù)工作的基礎(chǔ),因此分詞技術(shù)成為對(duì)漢語(yǔ)信息處理的第一步。中國(guó)素來(lái)享有“詩(shī)國(guó)”之稱,詩(shī)詞作為特殊的文學(xué)形式,以獨(dú)特的藝術(shù)形式,以恒久不衰的魅力成為中國(guó)文學(xué)的驕傲而流傳千古。因此,利用計(jì)算機(jī)技術(shù)處理古典詩(shī)詞成為廣大科研人員的關(guān)注點(diǎn)。
本文在對(duì)現(xiàn)有研究成果學(xué)習(xí)總結(jié)的基礎(chǔ)上,提出了一種適用于唐詩(shī)的分詞方法。
相關(guān)的科研機(jī)構(gòu)和科研人員在古典詩(shī)詞切分方面都做了大量研究,并取得了豐碩的研究成果。目前,對(duì)于詞的切分方法歸納起來(lái)大致分為三類:第一類是基于語(yǔ)法和規(guī)則的方法。其基本思想是在提取詞的同時(shí)進(jìn)行句法、語(yǔ)義的分析,利用句法信息和語(yǔ)義信息進(jìn)行詞性的標(biāo)注,并以此解決提取詞歧義的現(xiàn)象。第二類是基于統(tǒng)計(jì)的方法。該方法根據(jù)字符串在語(yǔ)料庫(kù)中出現(xiàn)的統(tǒng)計(jì)頻率決定是否能夠構(gòu)成詞。此方法不需要詞典技術(shù)的支持,但會(huì)提取出共現(xiàn)頻率高但不是詞的字符串。第三類是機(jī)械式方法。該方法將文檔中的字符串與詞典中的詞條進(jìn)行逐一匹配,若查找成功,則進(jìn)行切分,否則不予切分。古典詩(shī)詞切分方面,北大計(jì)算語(yǔ)言所通過利用純統(tǒng)計(jì)的方法將結(jié)合強(qiáng)度較強(qiáng)、使用穩(wěn)定以及帶有隱喻義的二字詞抽取出來(lái);臺(tái)灣元智大學(xué)羅鳳珠等人根據(jù)詩(shī)詞格律進(jìn)行詩(shī)詞切分。這些方法的提出為后續(xù)研究奠定了良好的基礎(chǔ)。
唐詩(shī)是一種特殊的文體形式。就詩(shī)行字?jǐn)?shù)看,有:五言體(每句必須是五個(gè)字)、七言體(每句必須是七個(gè)字);從詩(shī)體長(zhǎng)短看,有:絕句(全詩(shī)共四句)、律詩(shī)(全詩(shī)共八句)、排律(全詩(shī)多余八句)。
本文在對(duì)上述方法及唐詩(shī)特點(diǎn)研究的基礎(chǔ)上,提出了詩(shī)詞格律與機(jī)械匹配相結(jié)合的唐詩(shī)切分方法。本文剩余章節(jié)將詳細(xì)介紹本文涉及的相關(guān)定義及相應(yīng)的算法流程。
2.1子句和短句
子句是從文獻(xiàn)整體中經(jīng)由標(biāo)點(diǎn)符號(hào)分割,并進(jìn)行抽取的字符串。子句是文獻(xiàn)分詞的初始對(duì)象。短語(yǔ)是子句經(jīng)由多次分詞處理后,刪除已成功分詞的之后的剩余部分。例如,在古體詩(shī)-樂府詩(shī)中常有以“君不見”為起始的句子,若將子句“君不見黃河之水天上來(lái)”中“君不見”三個(gè)字被切分之后,剩余的“黃河之水天上來(lái)”則作為下一次切分的短語(yǔ)。
2.2詞
學(xué)術(shù)界至今沒有一個(gè)公認(rèn)的、具有權(quán)威性的詞表。鑒于此,故本文對(duì)詞的形式作如下定義:詞是最小的能夠獨(dú)立應(yīng)用的語(yǔ)言單位,即在漢語(yǔ)言文獻(xiàn)中能夠獨(dú)立、完整的表達(dá)語(yǔ)義且語(yǔ)義上不可再做分割的字符串。語(yǔ)義上不可分割指部分詞字面上可以分割成兩個(gè)或多個(gè)詞,但在實(shí)際分割之后語(yǔ)義則會(huì)發(fā)生改變不能表達(dá)原詞的意義。例如“二十四橋仍在,波心蕩、冷月無(wú)聲”(作者:姜夔 詞牌:揚(yáng)州慢)中,“二十四橋”為揚(yáng)州的古橋名,表示一個(gè)地點(diǎn)的專有名詞,若將其劃分為“二十四/橋”,則使得原本句意發(fā)生改變。
從構(gòu)成元素上看,詞可以分為基本詞和復(fù)合詞?;驹~無(wú)法看作由其他詞構(gòu)成。例如:?jiǎn)巫衷~“閃”、“亮”,雙字詞“鴛鴦”等。復(fù)合詞看作由其他詞構(gòu)成,可再分但整體詞義可能會(huì)發(fā)生改變。
2.3復(fù)合詞
復(fù)合詞指詞與詞的復(fù)合體,由兩個(gè)或兩個(gè)以上的詞組成的字符串。構(gòu)成復(fù)合詞的詞稱為構(gòu)詞部件,構(gòu)詞部件可為基本詞或者其他復(fù)合詞。復(fù)合詞的結(jié)構(gòu)取決于構(gòu)詞部件的數(shù)量和關(guān)系。復(fù)合詞的構(gòu)詞成分及所在的位置,社會(huì)已對(duì)其約定俗成,因而盡管這些復(fù)合詞在結(jié)構(gòu)上可以拆分開來(lái),但在唐詩(shī)語(yǔ)料庫(kù)中出現(xiàn)頻率非常高,結(jié)構(gòu)穩(wěn)定,帶有一定的特殊意義,具有“詞”的特性。
3.1全唐詩(shī)及詞數(shù)據(jù)庫(kù)
本文以彭定求等人編著的《全唐詩(shī)》為標(biāo)準(zhǔn)進(jìn)行整理,剔除其余朝代詩(shī)作,整合后全唐詩(shī)數(shù)據(jù)庫(kù)中共收錄2529人共計(jì)42863首詩(shī)詞。以范之麟編撰的《全唐詩(shī)大辭典》作為基本唐詩(shī)詞庫(kù)。
3.2全唐詩(shī)典故及專有名詞數(shù)據(jù)庫(kù)
唐詩(shī)中運(yùn)用大量的典故及專有名詞進(jìn)行詩(shī)詞的表情達(dá)意,具有特殊的含義。然而,由于數(shù)據(jù)稀疏情況的存在,這類詞在統(tǒng)計(jì)中并沒有顯示出具有很強(qiáng)的結(jié)合強(qiáng)度。這都造成詞匯切分與語(yǔ)意標(biāo)記的困難。對(duì)此,本文以范之麟編撰的《全唐詩(shī)典故辭典》和張忠綱編撰的《全唐詩(shī)大辭典》為基礎(chǔ),結(jié)合前人的工作,建立全唐詩(shī)典故及專有名詞數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)共包含唐詩(shī)專有名詞732個(gè),唐詩(shī)典故5126個(gè)。
3.3唐詩(shī)分詞方法介紹
平仄是近體詩(shī)最重要的格律因素,平仄在詩(shī)和韻文中的作用是構(gòu)成一種節(jié)奏。唐詩(shī)以兩個(gè)音節(jié)為一個(gè)音步,由于唐詩(shī)中天然的韻律結(jié)構(gòu),除了典故及專有名詞之外,以雙字詞最多,單字詞次之。此外,在五言句中的第2-3字、七言中的第2-3、4-5字之間一般不構(gòu)成詞。因此,本文提出了一種基于唐詩(shī)格律特點(diǎn),結(jié)合現(xiàn)代漢語(yǔ)分詞方法生成一種適用于唐詩(shī)詩(shī)句分詞算法。在此,以“青山隱隱水迢迢,秋盡江南草未凋。二十四橋明月夜,玉人何處教吹簫?!睘槔齺?lái)說明唐詩(shī)的切分步驟。(其中/表示分詞符號(hào),|表示根據(jù)古代詩(shī)詞切分規(guī)則設(shè)置詞結(jié)構(gòu)切分點(diǎn))
步驟1對(duì)比專有名詞數(shù)據(jù)庫(kù)和典故數(shù)據(jù)庫(kù),將長(zhǎng)度大于等于3的專有名詞和典故優(yōu)先切分出來(lái)。“二十四橋”為揚(yáng)州的古橋名,是一個(gè)表示地點(diǎn)的專有名詞。將其先切分出來(lái)成詞:“青山隱隱水迢迢/秋盡江南草未凋/二十四橋|明月夜/玉人何處教吹簫/”。
步驟2經(jīng)過步驟1之后,切分成的各子句字?jǐn)?shù)為一到七之間,在這里根據(jù)古代詩(shī)詞切分規(guī)則[2]來(lái)設(shè)定詞結(jié)構(gòu)切分點(diǎn):
規(guī)則(1)子句字?jǐn)?shù)為一則單字成詞;
規(guī)則(2)子句字?jǐn)?shù)為二、三的字串,不設(shè)置詞結(jié)構(gòu)切分點(diǎn);
規(guī)則(3)子句字?jǐn)?shù)為四、五的字串,則在第二字后面設(shè)置詞結(jié)構(gòu)切分點(diǎn);
規(guī)則(4)子句字?jǐn)?shù)為六、七的字串,則可分別在第二字和第四字后面設(shè)置詞結(jié)構(gòu)切分點(diǎn) 。
根據(jù)步驟2的規(guī)則,切分結(jié)果如下:“青山|隱隱|水迢迢/秋盡|江南|草未凋/二十四橋|明月夜/玉人|何處|教吹簫/”。
步驟3經(jīng)過步驟2之后,將切分的所有長(zhǎng)度為2的字串“XY”,與基本唐詩(shī)詞庫(kù)中詞進(jìn)行匹配,若匹配成功,則保留原切分;否則,將原字串“XY”切分為“X| Y”。
步驟4經(jīng)過上述操作,僅剩下長(zhǎng)度為3的字串,結(jié)合現(xiàn)代漢語(yǔ)分詞技術(shù)對(duì)剩余字串進(jìn)行進(jìn)一步切分。
本文采用最大逆向匹配算法對(duì)長(zhǎng)度為3的字串“XYZ”進(jìn)行切分。其原理如下:對(duì)字串進(jìn)行最大正向匹配算法:首先基本唐詩(shī)詞庫(kù)若存在長(zhǎng)度為3的字詞,則取“XYZ”作為匹配字段,若詞庫(kù)中存在“XYZ”,則匹配成功,字串“XYZ”不予切分,獨(dú)自成詞;若匹配不成功,則匹配“XY”,若成功,則字串切分為“XY|Z”;否則匹配“YZ”,若匹配成功,則字串切分為“X|YZ”;否則,字串切分為則字串切分為 “X|Y|Z”。切分之后的詩(shī)句結(jié)果如下:“青山|隱|隱|水|迢迢/秋|盡|江南|草|未|凋/二十四橋|明月|夜/玉人|何處|教|吹簫/”。
本文在《全唐詩(shī)》基礎(chǔ)上構(gòu)建生語(yǔ)料庫(kù),利用上文所述分詞方法,對(duì)全唐詩(shī)生語(yǔ)料庫(kù)進(jìn)行分詞。利用現(xiàn)已人工分詞的王維和孟浩然詩(shī)篇621首對(duì)上文分詞方法進(jìn)行驗(yàn)證。從統(tǒng)計(jì)結(jié)果來(lái)看,分詞正確率達(dá)90%。對(duì)于未成功分詞的詩(shī)句,主要由以下幾個(gè)方面的原因構(gòu)成:
①專有名詞語(yǔ)料庫(kù)和典故數(shù)據(jù)庫(kù)的完善程度不夠,這直接影響了分詞準(zhǔn)確率的高低。
②本文利用唐詩(shī)音律進(jìn)行分詞,是基于這樣一個(gè)假設(shè):唐詩(shī)中的詞多以二字詞為主。然而,在對(duì)于長(zhǎng)度為3的字串進(jìn)行切分時(shí),沒有充分考慮字串“XYZ”中“XY”和“YZ”兩者之中結(jié)合成詞的頻度。
③存在包孕型的錯(cuò)誤。例如:“三月”有可能是表示三個(gè)月,也可能表示十二月份中的三月,而兩種情況下的切分是不同的。從實(shí)驗(yàn)結(jié)果來(lái)看,相對(duì)于現(xiàn)代漢語(yǔ)的切分,全唐詩(shī)的切分正確率還有一定差距的。
本文對(duì)唐詩(shī)語(yǔ)料的結(jié)構(gòu)特點(diǎn)及相應(yīng)的分詞技術(shù)進(jìn)行了深入的探討,在總結(jié)前人研究方法的同時(shí),提出了一種基于唐詩(shī)格律特點(diǎn),結(jié)合現(xiàn)代漢語(yǔ)分詞方法生成一種適用于唐詩(shī)詩(shī)句分詞算法。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠有效提高唐詩(shī)分詞準(zhǔn)確率。當(dāng)然,僅對(duì)語(yǔ)料進(jìn)行切分是不夠的,只有以詞匯為單位對(duì)進(jìn)行標(biāo)注加工,才能對(duì)整首唐詩(shī)的情感、風(fēng)格等諸多方面進(jìn)行深入研究,這也為本文未來(lái)的工作指明了道路。
[1]蘇勁松,周昌樂等.基于統(tǒng)計(jì)抽詞和格律的全宋詞切分語(yǔ)料庫(kù)建立[J].中文信息學(xué)報(bào),2007,21(2):52-57.
[2]羅鳳珠.詩(shī)詞語(yǔ)言切分與語(yǔ)意分類標(biāo)記之系統(tǒng)設(shè)計(jì)及應(yīng)用[A].第四屆數(shù)位典藏技術(shù)研討會(huì)[C].2005.
[3]俞士汶,段慧明,等.北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范[J].中文信息學(xué)報(bào),2002,16(5):49-64.
Tang Poetry;Corpus;Word Segmentation;String Matching
Research on Segmentation Methods Applicable to Tang Poetry
YAN Wei1,YANG Xiu-mei2
(1.College of Computer Science,Sichuan University,Chengdu 610000;2.University of Chinese Academy of Sciences,Beijing 100049)
1007-1423(2016)03-0017-03
10.3969/j.issn.1007-1423.2016.03.004
閆偉(1990-),男,山東滕州人,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘、多媒體計(jì)算楊秀梅(1990-),女,山東臨沂人,碩士研究生,,研究方向?yàn)閿?shù)據(jù)分析、數(shù)據(jù)挖掘
2015-12-15
2015-12-30
構(gòu)建一個(gè)全唐詩(shī)語(yǔ)料庫(kù)是使用計(jì)算機(jī)自動(dòng)研究唐詩(shī)的基礎(chǔ)。在對(duì)唐詩(shī)中的“詞”、“復(fù)合詞”等進(jìn)行系統(tǒng)定義的基礎(chǔ)上,綜合唐詩(shī)在格律方面的特點(diǎn),提出一種適用于唐詩(shī)詩(shī)句分詞的方法。該方法先依據(jù)唐詩(shī)格律特點(diǎn)對(duì)詩(shī)句進(jìn)行切分,對(duì)不符合詞定義的切分結(jié)果,再采用現(xiàn)代漢語(yǔ)分詞技術(shù)中最大逆向匹配算法進(jìn)行修正。實(shí)驗(yàn)結(jié)果表明,所提出的方法能有效提高唐詩(shī)分詞準(zhǔn)確率。
唐詩(shī);語(yǔ)料庫(kù);分詞技術(shù);字串匹配
The construction of a full Tang poetry corpus is the basis for the study of Tang poetry by computer.Based on the Tang Dynasty in the "word"and"compound"system is defined on the basis of the comprehensive characteristics of Tang poetry in metrical form,proposes a method applicable to segment the Tang poetry.The first method of Tang poetry metrical features segmentation of verse basis,does not conform to the definition of the segmentation results,and then the use of modern Chinese word segmentation in reverse matching algorithm is modified.The experimental results show that the method proposed can effectively improve the accuracy rate of Tang poetry word segmentation.