郭忠偉 周慶伍 丁 丁 郭銀忠 李 巍 張曉松
(1.陸軍軍官學(xué)院二系 合肥 230031)(2.中國人民解放軍66282部隊(duì) 北京 102300)
軍用文書電子詞典為軍用文書的自然語言理解、信息提取、文語轉(zhuǎn)換等智能處理系統(tǒng)提供了基本知識(shí)源。由于軍用文書電子詞典應(yīng)用目的的特殊性,它與一般的詞典是不同的,一般的詞典只是存儲(chǔ)詞語的詞性、釋意或與另一種語言對應(yīng)的詞匯等,而軍用電子詞典除了存儲(chǔ)詞語之外,還包括語法信息、語義信息、語言處理方法規(guī)則等等[1]。本文從軍用文書智能處理的角度,著重研究了軍用文書領(lǐng)域電子詞典的構(gòu)建與實(shí)現(xiàn)問題。
在中文信息處理中,為了進(jìn)行語法研究與信息處理,需要把語法功能相同的或者語義相近的詞歸成一類,這是建立信息處理規(guī)則和處理方法的重要前提。文獻(xiàn)[1]提出了一個(gè)面向語言信息處理的現(xiàn)代漢語詞語分類體系,將數(shù)十萬的漢語詞語進(jìn)行了歸類,分為十八個(gè)基本詞類和七類非詞的語言成分。軍用文書作為漢語自然語言中的一個(gè)特定的受限領(lǐng)域,又具有自己鮮明的特點(diǎn):格式記述方法固定、句子簡練、用詞精確、內(nèi)容規(guī)范、組織有序、縮短語使用較多、連接詞較少等[3]。因此,軍用文書的分類可在文獻(xiàn)[1]基礎(chǔ)之上進(jìn)行簡化,省略其中基本詞類的語氣詞、擬聲詞和嘆詞,對于非詞的語言成分只采用成語、簡稱略語和習(xí)用語,其他不進(jìn)行處理。這樣得到的簡化的軍用文書詞性分類為:名詞(n),時(shí)間詞(t),處所(s),方位詞(f),數(shù)詞(m),量詞(q),區(qū)別詞(b),代詞(r),動(dòng)詞(v),形容詞(a),狀態(tài)詞(z),副詞(d),介詞(p),連詞(c),助詞(u),成語(i),習(xí)用語(l),簡稱略語(j)。
軍用文書詞語的語義分類主要是為軍用文書智能處理服務(wù)的。因此,軍用文書詞語不能完全照搬通用的語義分類系統(tǒng),需要參考相關(guān)軍用術(shù)語詞典,在對大量軍用文書樣本中的詞語提取、歸類的基礎(chǔ)上,再進(jìn)行語義分類[2,4]。這里構(gòu)建的軍用文書詞語語義分類體系為:
1)事物
主要包括:綜合用語、國防、戰(zhàn)爭戰(zhàn)略、戰(zhàn)役戰(zhàn)役法、戰(zhàn)斗戰(zhàn)術(shù)、警戒行軍宿營、組織指揮、體制編制、軍事訓(xùn)練、裝備管理、政治工作、后方勤務(wù)、偵察情報(bào)、電子對抗、軍事地理測繪、軍事氣象水文、時(shí)間、空間、軍種、兵種等。
2)運(yùn)動(dòng)
主要包括:關(guān)聯(lián)、心理活動(dòng)、行為(自變、促變、自為、自移、搬移、對待、給予、獲取、創(chuàng)造、遭受)等。
3)性狀
主要包括:外形、表象、顏色、味道、性質(zhì)、品格、境況等。這種分類與通用的語義分類不同之處主要在于軍用文書電子詞典中名詞的語義分類。由于軍用文書領(lǐng)域的術(shù)語名詞都處于具體事物和抽象事物一級,如果繼續(xù)分下去對軍用文書的智能處理沒有太大意義,若只分兩類則提供的信息又不夠詳盡,這里的語義分類是按照簡單有效性原則,忽略了暫時(shí)不需要的信息。
詞法信息是詞的變化信息,軍用文書電子詞典需要收集兩類詞法信息:詞的重疊信息和詞的附加成分信息。漢語不像英語語系,它沒有時(shí)態(tài)變化,但可通過重疊、附加前接成分或后接成分等方式構(gòu)成新的詞。設(shè)單字詞為A,兩字詞為AB。漢語詞的重疊可能有AA、A一A、A了A、A了一A、AAB、ABB、AABB、ABAB等多種形態(tài)。在軍用文書智能處理中,為了實(shí)現(xiàn)文書詞語的正確切分,需要給出詞的重疊信息。在名詞庫中設(shè)有“重疊”字段,凡單字名詞有重疊形式者,該字段填NN。在動(dòng)詞庫中,為了給出以VO形式表示的述賓結(jié)構(gòu)的離合動(dòng)詞是否有VVO的重疊,動(dòng)詞庫需要設(shè)立“VVO”字段。在形容詞庫中,一些單字形容詞A的重疊形式AA再加上狀態(tài)詞后綴“的”構(gòu)成的“AA的”,一定是狀態(tài)詞。如果只考察AA,則有的是詞(副詞,d),有的不是詞。因此,在形容詞庫中,除了設(shè)立“重疊”字段外,還要設(shè)立“重疊詞性”字段。
1)擔(dān)任句法成分情況
名詞一般是能擔(dān)任主語、賓語的,但也有些名詞不能單獨(dú)擔(dān)任主語或賓語的。因此,需要在名詞庫中設(shè)立“主”、“賓”兩個(gè)字段,對于“地步”,“主”字段填“否”,表示“地步”不能單獨(dú)做主語,即使它受定語修飾構(gòu)成定中短語也不能做主語,對于“方面”,“賓”字段填“否”表示“方面”不能單獨(dú)作賓語,不過受定語修飾構(gòu)成的定中短語就可以作賓語,如“兼顧各個(gè)方面”。一般認(rèn)為多數(shù)動(dòng)詞是可以作謂語的,因此在動(dòng)詞庫中設(shè)立了“單作謂語”字段。
2)受程度副詞修飾的形容詞、動(dòng)詞
絕大多數(shù)形容詞可以受“很”一類的程度副詞修飾,構(gòu)成狀中結(jié)構(gòu),其中形容詞是中心語,副詞是狀語。但是,在現(xiàn)行的詞語分類體系中,不是所有形容詞都能受“很”一類程度副詞修飾。為了準(zhǔn)確描述形容詞庫中的每一個(gè)詞能否受“很”一類的程度副詞修飾,設(shè)立了“很”字段,并規(guī)定對于不能受“很”修飾的那些詞該字段填“否”能夠受“很”修飾的則不填。動(dòng)詞庫中也有一部分能夠受程度副詞修飾的詞,因此在動(dòng)詞庫中也需設(shè)立“很”字段,對那些能受“很”修飾的動(dòng)詞,該字段填“很”否則不填。
軍用文書電子詞典建立的語法與語義相結(jié)合的收詞原則,要求對每個(gè)登錄項(xiàng)的語義要有明確的界定,名詞、動(dòng)詞、形容詞這三個(gè)詞都要按語義分類填寫語義編碼。此外,各類詞都包含的“語義項(xiàng)”字段和“備注”字段要填寫簡明的釋義或示例。兩個(gè)登錄項(xiàng)如果同字同音同類,則主要靠“語義項(xiàng)”字段來區(qū)分其不同的含義。限于自然語言處理技術(shù)的水平,“語義項(xiàng)”和“備注”這兩個(gè)字段是供人閱讀使用的,為了便于計(jì)算機(jī)處理,另外需要設(shè)立“同形”字段。
在軍用文書中常有這樣的情況,兩個(gè)詞有前后照應(yīng)關(guān)系,但這兩個(gè)詞并不直接構(gòu)成某種句法結(jié)構(gòu)。例如,對于介詞“在”,后面常有方位詞“上”、“下”、“中”、“里”等與其照應(yīng),構(gòu)成一個(gè)框架。中間可納入其他成分,如“在先期作戰(zhàn)基礎(chǔ)上”、“在火力支援下”、“在作戰(zhàn)準(zhǔn)備中”等。具有這樣的前后照應(yīng)信息對軍用文書句子的分析也是很有用的。因此,在介詞庫中設(shè)立了“后照應(yīng)詞”、“后照應(yīng)類”這兩個(gè)字段。在方位詞中,需要有一個(gè)“前介”字段,要求填寫與該方位詞前照應(yīng)的介詞。在副詞中,需要有“前照應(yīng)”與“后照應(yīng)”兩個(gè)字段。
在軍用文書電子詞典中,可以將詞語模型表示為一個(gè)七元組[8]。
其中 :V為單 詞集;V1為實(shí) 詞集;V2為 短 語 集為有限語法特征集,包括詞性、詞法特征、語法特征及句法樹名等[6];Y為有限語義特征集,包括抽象語義、語義前后搭配等;有限集,稱為句法詞典,元素之值a為詞條word的x特征值,且,;有限集為語義詞典,元素(word1,y)之值b為實(shí)詞word1的Y特征值,且word1∈V1,y∈Y。由文書生成系統(tǒng)生成的文本,V*為V的閉包[9]。例如“攻占”一詞的表示為[7]
軍用文書電子詞典的實(shí)現(xiàn)主要包括四個(gè)步驟:首先從軍用文書語料中篩選、統(tǒng)計(jì)出候選詞語[2,10],并進(jìn)行分類、屬性描述和表示,在特征集表示中應(yīng)使詞語的特征屬性盡量完全;然后,按照分層建表的思想把軍用文書電子詞典設(shè)計(jì)為若干個(gè)相關(guān)的表,主要包括總表、名詞表、動(dòng)詞表、副詞表、介詞表、形容詞表、習(xí)用語表等;再者,在分層后的每個(gè)層次上,依據(jù)分塊存儲(chǔ)的觀念,按某些標(biāo)準(zhǔn)分成若干塊,分而治之。如對語法層而言,按語法進(jìn)行分類,按詞性分塊存儲(chǔ),在語義層則按語義分類,同時(shí)按語義分塊存儲(chǔ)。這樣可以對每一個(gè)塊采取相同的或者不同的結(jié)構(gòu)存儲(chǔ),大大提高了運(yùn)行管理效率;最后采用合適的數(shù)據(jù)庫管理系統(tǒng),輸入軍用文書詞語信息,構(gòu)造出各個(gè)數(shù)據(jù)庫表。本文采用SQL Server數(shù)據(jù)庫管理系統(tǒng)描述每個(gè)詞語及其屬性的二維關(guān)系,構(gòu)建了包含3000余詞匯的軍用文書電子詞典(詞表如圖1所示)。
在軍用文書智能處理過程中,為了詞語調(diào)用的方便性以及加快對電子詞典的訪問速度,還應(yīng)給詞典建立索引機(jī)制。
圖1 軍用文書詞表
軍用文書電子詞典對文書的智能處理有著重要的支撐作用。以對句子“指揮所開設(shè)位置”進(jìn)行自動(dòng)分詞為例,對構(gòu)建的軍用文書電子詞典進(jìn)行試用。采用最大匹配算法,算法如下:
Step1 待切分的軍用文書詞語串為s1,已經(jīng)切分的軍用文書詞語串為s2(s2初始為空);
Step2 如果s1為空,轉(zhuǎn)Step6;
Step3 從s1的左邊復(fù)制一個(gè)子串w作為候選詞語,w盡可能長,但長度不能超過MaxLength;
Step4 從軍用文書電子詞典中進(jìn)行查找,如果詞典中能找到w,或者w的長度為2,那么將w和一個(gè)詞界標(biāo)記一起加到s2的右邊,并在軍用文書電子詞典中查找出詞語w的詞性,把詞性字符加到s2的右邊,并且從s1的左邊去掉w,轉(zhuǎn)Step2;
Step5 去掉w中最后一個(gè)漢字,轉(zhuǎn)Step4;
Step6 結(jié)束。
圖2 分詞結(jié)果
句子“指揮所開設(shè)位置”進(jìn)行自動(dòng)分詞后的結(jié)果如圖2所示。
電子詞典是軍用文書智能處理的基礎(chǔ)。本文依據(jù)現(xiàn)代漢語詞語分類體系,并結(jié)合軍用文書特點(diǎn),對軍用文書詞匯進(jìn)行了分類,并從詞法、句法、語義、照應(yīng)等方面進(jìn)行了屬性描述,建立了詞語表示模型,并構(gòu)建實(shí)現(xiàn)了軍用文書電子詞典,通過使用,表明該方法能很好地滿足軍用文書智能處理的要求。
[1]俞士汶,朱學(xué)峰,王惠.現(xiàn)代漢語語法信息詞典詳解[M].第二版.北京:清華大學(xué)出版社,2003.12-60.
[2]鄭家恒,張虎,譚紅葉,等.智能信息處理:漢語語料庫加工技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2010.40-45.
[3]姜放然.軍用文書新編[M].北京:軍事科學(xué)出版社,1997.3-14.
[4]Ehud Reiter,Roberty Dale.自然語言生成系統(tǒng)的建造[M].北京:北京大學(xué)出版社,2010.21-36.
[5]徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析[J].中文信息學(xué)報(bào),2008,22(1):116-122.
[6]史燕,程顯毅.知網(wǎng)、HNC和框架網(wǎng)的語義知識(shí)表示異同[J].廣西師范大學(xué)學(xué)報(bào),2009,27(1):174-176.
[7]郭忠偉,周獻(xiàn)中,徐延勇.C3I系統(tǒng)仿真中基于NLG技術(shù)的文電自動(dòng)生成[J].系統(tǒng)仿真學(xué)報(bào),2003,15(12):1712-1728.
[8]Daniel Jurafsky,James H Martin.Speech and Language Processing[M].Prentice Hall,2005.4-10.
[9]Harris MD.Building a Large-Scale Commercial NLG System for an EMR[C]//Proceedings of the Fifth International Natural Language Generation Conference.pages 157-160,2008.
[10]Daniel Jurafsky,James H Martin.Speech and Language Processing[M].Prentice Hall,2005.7-12.
[11]AnjaBelz,EricKow.Unsupervised Alignment of Comparable Data and Text Resources[C]//In Proceedings of the 4th Workshop on Buildingand Using Comparable Corpora,pages102-109,2011.