1.裝甲兵工程學(xué)院 科研部,北京 100072
2.中國(guó)科學(xué)院 聲學(xué)研究所,北京 100190
1.裝甲兵工程學(xué)院 科研部,北京 100072
2.中國(guó)科學(xué)院 聲學(xué)研究所,北京 100190
在信息化技術(shù)高速發(fā)展的條件下,軍事領(lǐng)域的文書(shū)自動(dòng)化分析也在走向深入。軍用文書(shū)特別是作戰(zhàn)文書(shū)處理要求能夠自動(dòng)地獲取文書(shū)中的關(guān)鍵要素信息,并根據(jù)這些要素信息之間的語(yǔ)義關(guān)系繪制出軍事要圖,實(shí)現(xiàn)文圖的自動(dòng)轉(zhuǎn)換。在傳統(tǒng)作戰(zhàn)條件下,這要參謀人員人工分析,獲取文書(shū)要素信息,然后通過(guò)費(fèi)時(shí)費(fèi)力的手工繪制才能實(shí)現(xiàn)[1]。計(jì)算機(jī)技術(shù)和語(yǔ)言分析技術(shù)的發(fā)展使得機(jī)器自動(dòng)分析軍事文書(shū)并自動(dòng)繪制出軍事要圖成為可能。李向陽(yáng)等利用信息抽取技術(shù)給出了一種軍用文圖自動(dòng)轉(zhuǎn)換方案,以10篇樣本測(cè)試信息點(diǎn)抽取的F值為93.43%[2];孫宏綱等引入了自然語(yǔ)言處理的分句分詞技術(shù)進(jìn)行了軍事文書(shū)的自動(dòng)標(biāo)圖研究,構(gòu)造了總體結(jié)構(gòu)和算法模型[3];鮑廣宇等運(yùn)用句法分析規(guī)則和機(jī)器翻譯技術(shù)實(shí)現(xiàn)了一個(gè)軍事文本標(biāo)圖的原型系統(tǒng)[4];顧曉明等甚至探討了基于本體的軍用文書(shū)理解,試圖建立軍事本體庫(kù),方法仍是模式匹配[5]。還有秦曉周等[6]、胡斌等[7]、楊健等[8]、姜文志等[9],都在軍事文圖的自動(dòng)轉(zhuǎn)換方面進(jìn)行了研究,大大推動(dòng)了自然語(yǔ)言分析技術(shù)在軍事文書(shū)自動(dòng)分析領(lǐng)域的應(yīng)用。不過(guò),以上所述引入的自然語(yǔ)言分析技術(shù)主要還是停留在詞法分析、句法分析層次,有的甚至基于形式語(yǔ)言的編譯原理,而隨著自然語(yǔ)言語(yǔ)義分析技術(shù)的發(fā)展,涉及語(yǔ)言深層的語(yǔ)義模型和語(yǔ)義分析技術(shù)也可以應(yīng)用于軍事文圖轉(zhuǎn)換,可以進(jìn)一步提高軍事作戰(zhàn)指揮的自動(dòng)化水平。
本文通過(guò)概念層次網(wǎng)絡(luò)(HNC)理論[10-12]的自然語(yǔ)言理解模型,實(shí)現(xiàn)了軍事文書(shū)中時(shí)間、地點(diǎn)、部隊(duì)番號(hào)等關(guān)鍵要素信息的識(shí)別和抽取,對(duì)句群文本的語(yǔ)句進(jìn)行了語(yǔ)義分析,探討了軍事文書(shū)的語(yǔ)境單元萃取技術(shù)。運(yùn)用本文提出的技術(shù)和方法對(duì)實(shí)際軍事文書(shū)語(yǔ)料進(jìn)行分析之后,獲得了預(yù)期的準(zhǔn)確率,可以為軍事要圖標(biāo)繪提供直接的繪圖信息。
概念是語(yǔ)義表示和語(yǔ)義理解的重要手段,HNC理論認(rèn)為語(yǔ)言有其在大腦中對(duì)應(yīng)的語(yǔ)言概念空間,語(yǔ)言概念空間是人類(lèi)語(yǔ)言智能的基礎(chǔ)。語(yǔ)言概念空間自下而上可以分為概念基元、句類(lèi)、語(yǔ)境單元和語(yǔ)境四個(gè)層面。第一層面的概念基元是描述各種各樣概念的基礎(chǔ),由一個(gè)精心設(shè)計(jì)的延伸關(guān)系明確的具有網(wǎng)絡(luò)聯(lián)系的概念符號(hào)體系構(gòu)成,這些概念基元符號(hào)可以描述自然語(yǔ)言空間的詞語(yǔ)所表達(dá)的概念,便于計(jì)算機(jī)的分析和計(jì)算。第二層面的句類(lèi)來(lái)源于概念基元,描述了自然語(yǔ)言空間語(yǔ)句的語(yǔ)義類(lèi)型和語(yǔ)義結(jié)構(gòu),通過(guò)已經(jīng)實(shí)現(xiàn)的句類(lèi)分析技術(shù)[13-14]可以對(duì)語(yǔ)句的句類(lèi)代碼、語(yǔ)塊和語(yǔ)塊內(nèi)部構(gòu)成進(jìn)行分析,得到構(gòu)成語(yǔ)塊的詞語(yǔ)概念符號(hào)以及句類(lèi)中語(yǔ)塊之間的關(guān)系,這些語(yǔ)塊和語(yǔ)義關(guān)系是軍事文書(shū)中部隊(duì)關(guān)系和作戰(zhàn)關(guān)系的基礎(chǔ)。第三層面的語(yǔ)境單元對(duì)應(yīng)于自然語(yǔ)言空間的句群,語(yǔ)境單元用領(lǐng)域句類(lèi)表示式表示,描述了句群的領(lǐng)域(由概念基元定義)、情景框架(參與對(duì)象和對(duì)象之間的語(yǔ)義關(guān)系)和背景(時(shí)間、地點(diǎn)等)。第四層面的語(yǔ)境則對(duì)應(yīng)于自然語(yǔ)言框架的篇章,是對(duì)短時(shí)記憶和長(zhǎng)時(shí)記憶的描述,主要由敘述對(duì)象和內(nèi)容或論述對(duì)象和內(nèi)容構(gòu)成。
軍事文書(shū)具有敘述規(guī)范、描述準(zhǔn)確、人理解起來(lái)無(wú)二義性等特點(diǎn),因此在自然語(yǔ)言理解中有一些方便之處。對(duì)于軍事文書(shū)中的作戰(zhàn)文書(shū),經(jīng)過(guò)實(shí)際語(yǔ)料分析后可以總結(jié)出較為規(guī)范的語(yǔ)境單元,例如語(yǔ)境單元“首長(zhǎng)決心”可以用表1表示。
表1 語(yǔ)境單元示例(“首長(zhǎng)決心”)
在語(yǔ)境單元框架的填充過(guò)程中,既需要對(duì)句群進(jìn)行整體性的分析,如獲取“過(guò)程”的先后次序,也需要分析語(yǔ)句的句類(lèi)語(yǔ)塊構(gòu)成,如獲取構(gòu)成部隊(duì)的單位或組織,還需要對(duì)特殊的概念或概念基元(如時(shí)間、地點(diǎn)等)進(jìn)行識(shí)別和獲取。通過(guò)對(duì)有一個(gè)或多個(gè)語(yǔ)句構(gòu)成的句群進(jìn)行概念基元分析,可以獲得描述作戰(zhàn)部署的句群文本中的部隊(duì)番號(hào)、時(shí)間、地點(diǎn)等概念;通過(guò)對(duì)句群中的語(yǔ)句進(jìn)行句類(lèi)分析,可以獲得構(gòu)成部隊(duì)的組成單位或組織,作戰(zhàn)任務(wù)以及任務(wù)的方式等信息;通過(guò)對(duì)句群的整體分析可以獲得部隊(duì)的性質(zhì)、任務(wù)過(guò)程等信息。因此,對(duì)于較為獨(dú)立的不依賴(lài)于整個(gè)句群的時(shí)間等概念可以首先處理和獲?。粚?duì)于需要通過(guò)語(yǔ)句語(yǔ)義結(jié)構(gòu)和語(yǔ)義關(guān)系才能得到的部隊(duì)編成、任務(wù)方式等需要對(duì)語(yǔ)句進(jìn)行句類(lèi)分析,然后獲取相關(guān)概念或詞語(yǔ);而對(duì)于整體較強(qiáng)的任務(wù)過(guò)程、部隊(duì)性質(zhì)等需要結(jié)合概念分析和句類(lèi)分析,通過(guò)句群整體來(lái)獲得。
軍事文書(shū)中的部隊(duì)番號(hào)具有其特定的命名方法,而且自成體系。部隊(duì)番號(hào)最基本的命名方法是“[序]+[{數(shù)}]+<層級(jí)>”,如“第5師”。這里的“第”、數(shù)字有時(shí)省略,“師”可以替換成“軍、旅、團(tuán)、營(yíng)、連、排”等。層級(jí)前面可以加“步兵、裝甲”等軍兵種信息,也可以加地區(qū)、總稱(chēng)、國(guó)別等信息,還可以加一些功能區(qū)別詞,如“戰(zhàn)略、戰(zhàn)術(shù)、獨(dú)立”等詞語(yǔ)。因此,基本部隊(duì)番號(hào)可以用BNF范式描述如下:
<番號(hào)>::=[<國(guó)別>|<總稱(chēng)>|<地區(qū)>][{<軍兵種>}][<序>{<數(shù)>}]<層級(jí)用字>
<國(guó)別>::=<美|日|法|德|英|…>[軍]
<總稱(chēng)>::=<解放軍|中國(guó)人民解放軍|自衛(wèi)隊(duì)|人民軍|國(guó)防軍|國(guó)民革命軍|…>
<地區(qū)>::=<浦口|河北|…>
<軍兵種>::=[功能]<陸軍|步兵|野戰(zhàn)|機(jī)步|摩步|騎兵|炮兵|反坦克|反坦克炮兵|二炮|戰(zhàn)略導(dǎo)彈|戰(zhàn)術(shù)導(dǎo)彈|工兵|舟橋|通信|裝甲|坦克|裝甲兵|坦克兵|海軍陸戰(zhàn)隊(duì)|空降|防空|防化|海軍|艦隊(duì)|戰(zhàn)艦|驅(qū)逐艦|補(bǔ)給艦|潛艇|航母|航母戰(zhàn)斗群|空軍|…>
<序數(shù)>::=<第><阿拉伯?dāng)?shù)字>
<數(shù)>::=<{阿拉伯?dāng)?shù)字}>
<層級(jí)>::=<兵團(tuán)|軍|方面軍|集團(tuán)軍|師|旅|團(tuán)|營(yíng)|連|排|班>[[<分工>]<部|隊(duì)|處|科|室|預(yù)備隊(duì)|組|編組|群|戰(zhàn)斗群|攻擊群|…>]
<功能>::=<戰(zhàn)略|戰(zhàn)術(shù)|獨(dú)立|…>
<分工>::=<政治|參謀|作訓(xùn)|科研|后勤|情報(bào)|裝備…>
基本的部隊(duì)番號(hào)之間可以串聯(lián),形成較為復(fù)雜的部隊(duì)番號(hào)。例如“裝甲第13師炮兵團(tuán)第3營(yíng)”,經(jīng)編碼后為“13ZJSPBT3Y”,供要圖標(biāo)繪系統(tǒng)使用。番號(hào)串聯(lián)的特點(diǎn)是按層級(jí)從高到低列舉,相同的<軍兵種>不重復(fù),串聯(lián)時(shí)其前的<總稱(chēng)>等一定相同,肯定不重復(fù)。例如“中國(guó)人民解放軍第一野戰(zhàn)軍第19兵團(tuán)第65軍”,編碼為“1YZJ19BT65J”?;镜牟筷?duì)番號(hào)之間也可以并聯(lián),并聯(lián)時(shí)同一軍兵種通常是最后一個(gè)層級(jí)單位并聯(lián),不同軍兵種則可能不同層級(jí)并聯(lián);并聯(lián)符號(hào)為中文常用的“和”與“、”(頓號(hào)),也包括“與”、“并”、“及”。例如“步兵第8團(tuán)第3連和第6連”,經(jīng)編碼后為“3·6L/8T”;“集團(tuán)軍炮兵旅第1、4、5營(yíng)”,經(jīng)編碼后為“JTJPBU1?4?5Y”。番號(hào)并聯(lián)時(shí)會(huì)出現(xiàn)“配屬”和“欠缺”情況,通常會(huì)出現(xiàn)“配屬”、“加強(qiáng)”、“欠”等詞語(yǔ)。
在識(shí)別部隊(duì)番號(hào)時(shí),首先以層級(jí)即“軍、師、旅、團(tuán)、營(yíng)、連、排、班、隊(duì)”為激活點(diǎn),然后向前尋找左邊界(包括層級(jí)用字、數(shù)字、“第”字、軍兵種、功能區(qū)別詞)。如果遇到串聯(lián)則繼續(xù)尋找部隊(duì)番號(hào)左邊界,如果遇到并聯(lián)則對(duì)頓號(hào)“、”等并聯(lián)標(biāo)志進(jìn)行并聯(lián)處理。最后向后尋找右邊界(主要是括號(hào)及其中內(nèi)容),識(shí)別“配屬”和“欠缺”等情形。部隊(duì)番號(hào)的識(shí)別算法可以用圖1所示的有限狀態(tài)機(jī)來(lái)描述。
圖1 番號(hào)識(shí)別算法圖
在軍事文書(shū)中,會(huì)出現(xiàn)番號(hào)的指代和省略現(xiàn)象。指代需要對(duì)指代字詞“該、各、敵、我、友”進(jìn)行特殊處理(如“該師”、“我?guī)煛?、“敵旅”),指代的恢?fù)則需要從上下文中尋找。省略與整篇文書(shū)相關(guān),一般會(huì)在文書(shū)標(biāo)題中指明默認(rèn)的層級(jí)名稱(chēng),省略的恢復(fù)則屬于篇章語(yǔ)境的分析理解范疇,有時(shí)在文本中也沒(méi)有給出。
時(shí)間概念有相對(duì)時(shí)間(如“明天”)和絕對(duì)時(shí)間之分,也有時(shí)間點(diǎn)和時(shí)間段之分,時(shí)間點(diǎn)如“1945年4月15日3時(shí)10分0秒”,時(shí)間段如“30分鐘”。在軍事文書(shū)中為保證行文的準(zhǔn)確性一般使用絕對(duì)時(shí)間,對(duì)任務(wù)的開(kāi)始時(shí)間會(huì)進(jìn)行明確規(guī)定,對(duì)結(jié)束時(shí)間根據(jù)任務(wù)的不同會(huì)直接指明、用時(shí)間段描述或者不指明。
時(shí)間信息無(wú)論是時(shí)間點(diǎn)的信息還是時(shí)間段的信息,在需要精確描述和表達(dá)的情況下,其基本特征是“數(shù)概念+時(shí)間概念”。例如“4月15日3時(shí)10分0秒”可以拆分為“4月”、“15日”、“3時(shí)”等基本時(shí)間單位,每個(gè)基本時(shí)間單位的特征都是“數(shù)字+時(shí)間詞”。數(shù)概念或數(shù)字包括阿拉伯?dāng)?shù)字和中文數(shù)字,時(shí)間詞主要有:年、月、日、時(shí)、分、秒,用于描述時(shí)間段的特殊時(shí)間詞主要有:天、小時(shí)、分鐘。當(dāng)多個(gè)時(shí)間單位連續(xù)出現(xiàn)時(shí),把它們合并成一個(gè)時(shí)間信息。
軍事文書(shū)中重要地點(diǎn)信息的特征在于有坐標(biāo),坐標(biāo)一般是帶括號(hào)式的二維坐標(biāo),如“120高地(xx,xx)”。地點(diǎn)信息的第二個(gè)特征是與地名、方向和地域等空間概念一同出現(xiàn),由于地名不可能都收錄到詞典當(dāng)中,因此地點(diǎn)的左邊界一般是介詞(如“在、于”等)或者句子中的謂語(yǔ)(特征語(yǔ)塊),右邊界一般是“東、西、南、北、地區(qū)、一側(cè)”等詞語(yǔ)。
獲取地點(diǎn)信息的第一步是判斷帶括號(hào)的標(biāo)號(hào)段是否是地點(diǎn)坐標(biāo);第二步是以帶括號(hào)的地點(diǎn)坐標(biāo)為中心,向左尋找左邊界(以動(dòng)詞和某些介詞為準(zhǔn));第三步是以帶括號(hào)的地點(diǎn)坐標(biāo)為中心,向右尋找右邊界(如果不是方向、地域等則停止)。
有的地點(diǎn)信息在軍事文書(shū)中第一次出現(xiàn)時(shí)帶有括號(hào)式坐標(biāo)信息,再往后出現(xiàn)時(shí)則不帶坐標(biāo)信息。對(duì)這類(lèi)地點(diǎn)信息可用動(dòng)態(tài)記憶的已識(shí)別地點(diǎn)庫(kù)來(lái)識(shí)別不帶坐標(biāo)的地點(diǎn)信息,即把已經(jīng)識(shí)別的地點(diǎn)存儲(chǔ)到一個(gè)數(shù)據(jù)表中,該數(shù)據(jù)表處理完一個(gè)句子后自動(dòng)更新。當(dāng)識(shí)別下一個(gè)新的句子時(shí),前面識(shí)別過(guò)的句子中的地點(diǎn)信息可以作為已知地點(diǎn)獲取。
HNC理論認(rèn)為,語(yǔ)句的理解或者語(yǔ)義分析就是正確得到語(yǔ)句的句類(lèi)代碼,這里的“句類(lèi)代碼”包括語(yǔ)句的格式、語(yǔ)義類(lèi)別和語(yǔ)塊構(gòu)成。下面就舉一些例子進(jìn)行說(shuō)明:
例1主力向贊皇縣進(jìn)攻。
分詞結(jié)果:主力 向 贊 皇 縣 進(jìn)攻
句類(lèi)代碼:!111XT2b*20J=TA+TB2+XT2b
語(yǔ)塊認(rèn)定:TA:主力;TB2:<向> 贊皇縣;XT2b:進(jìn)攻
在例1中,“贊”和“進(jìn)攻”在詞語(yǔ)知識(shí)庫(kù)中都有句類(lèi)代碼,但是在分詞之后和句類(lèi)假設(shè)之前,進(jìn)行了時(shí)間地點(diǎn)信息的處理,“贊皇縣”被識(shí)別為地名,“贊”字因地名識(shí)別而失去動(dòng)詞資格,全句只剩一個(gè)動(dòng)詞“進(jìn)攻”?!斑M(jìn)攻”的句類(lèi)代碼為“XT2b*20J”,按照語(yǔ)句基本格式為“TA+XT2b+ TB2”,即“主力+進(jìn)攻+贊皇縣”。在例1中,語(yǔ)句采用了規(guī)范格式!111,前有語(yǔ)塊標(biāo)志符“向”(l02*TB2),使得動(dòng)詞“進(jìn)攻”落在句尾,最終認(rèn)定語(yǔ)句的句類(lèi)代碼為!111XT2b*20J。
例2殲滅迂回突入我縱深和在我縱深空降之?dāng)场?/p>
分詞結(jié)果:殲滅 迂回 突入 我 縱深 和 在 我 縱深空降之?dāng)?/p>
句類(lèi)代碼:!31XY10*21J=XY10+YC
語(yǔ)塊認(rèn)定:XY10:殲滅 YC:{迂回|突入我縱深和在我縱深空降之?dāng)硙
句蛻分析:!31T2bJ=T2b+TB2
句蛻內(nèi)的語(yǔ)塊認(rèn)定:T2b:迂回 TB2:突入我縱深和在我縱深空降之?dāng)?/p>
在例2中,出現(xiàn)了由多個(gè)動(dòng)詞組合而成的“殲滅迂回突入”動(dòng)詞團(tuán)塊,其后雖然還有動(dòng)詞“空降”,但“空降”后面的“之”字排除了它作為動(dòng)詞的可能。句類(lèi)分析程序能正確選出“殲滅”為Eg,“迂回”為 El,但實(shí)際上“突入”與“迂回”是并列作為El。此外,對(duì)l類(lèi)概念的“之、和、在、我、敵”句類(lèi)分析程序未能充分理解和利用,TB2優(yōu)先空間概念“縱深”這一句類(lèi)知識(shí)也未體現(xiàn)于假設(shè)檢驗(yàn)中,導(dǎo)致句類(lèi)分析的部分結(jié)果仍不如人意。
句類(lèi)分析程序需要詞語(yǔ)知識(shí)庫(kù)和句類(lèi)知識(shí)庫(kù)的支持,詞語(yǔ)知識(shí)庫(kù)給出了動(dòng)詞的句類(lèi)代碼候選,而句類(lèi)知識(shí)庫(kù)給出了句類(lèi)代碼的語(yǔ)塊以及語(yǔ)塊的優(yōu)先概念等知識(shí)。多動(dòng)詞的處理是句類(lèi)分析的頭號(hào)難點(diǎn),需要在句類(lèi)分析的各個(gè)階段進(jìn)行加強(qiáng)和處理。
語(yǔ)境單元萃取的核心任務(wù)是填充情景框架,填充情景框架的前提是獲得句群文本的領(lǐng)域,在領(lǐng)域句類(lèi)表示式的指導(dǎo)下對(duì)情景框架進(jìn)行填充,在填充的過(guò)程中需要用到前面提到的部隊(duì)番號(hào)信息、時(shí)間地點(diǎn)信息和語(yǔ)句的句類(lèi)分析結(jié)果。
軍用文書(shū)描述的內(nèi)容必然限定于軍事活動(dòng)這一大領(lǐng)域,從軍事活動(dòng)的作用效應(yīng)鏈(作用、過(guò)程、轉(zhuǎn)移、效應(yīng)、關(guān)系、狀態(tài))來(lái)看,主要有指揮、作戰(zhàn)、部署、訓(xùn)練、保障、行軍、作戰(zhàn)各方等等。具體到某一個(gè)語(yǔ)境單元如“作戰(zhàn)部署”時(shí),可以給出如表1所示的情景框架。在已經(jīng)知道一個(gè)句群文本領(lǐng)域(參見(jiàn)文獻(xiàn)[15-16])的情況下,語(yǔ)境單元萃取的過(guò)程就是通過(guò)句群文本的信息獲取和語(yǔ)句的句類(lèi)分析,獲得情景框架中需要填充的正確概念或要素。例如下面的句群文本,其領(lǐng)域?yàn)椤笆组L(zhǎng)決心”。
例3集團(tuán)軍首長(zhǎng)||決心||[#集中主要兵力兵器~||~在2號(hào)高地(XX、XX)西側(cè)至154高地(XX、XX)東側(cè)500米地段~||實(shí)施主要突破,+向3號(hào)高地(XX、XX)、行樂(lè)村(XX、XX)、南清河(XX、XX)方向||實(shí)施主要突擊。+采取中間突破,兩翼迂回,縱深打擊,分割圍殲的戰(zhàn)術(shù)手段,~||首先殲滅||竹山(XX、XX)北側(cè)、梅家莊(XX、XX)北側(cè)、尹家莊(XX、XX)南側(cè)地域之?dāng)常?爾后殲滅||位昌(XX、XX)、北回車(chē)(XX、XX)、北清河(XX、XX)地域之?dāng)常?再向贊皇縣城(XX、XX)、徐樂(lè)村(XX、XX)、李家莊(XX、XX)方向||發(fā)展進(jìn)攻。#]
在例3中,該句群有兩個(gè)句號(hào)形成的“大句”,第一個(gè)大句中“決心”之后有逗號(hào)分隔形成的兩個(gè)小句。第二個(gè)大句中,前三個(gè)逗號(hào)是輔塊中表示要素并聯(lián)的標(biāo)志,最后的兩個(gè)逗號(hào)把大句分割為三個(gè)小句。例3中用語(yǔ)言空間的標(biāo)注符號(hào)標(biāo)注了語(yǔ)句之間的關(guān)系,語(yǔ)塊的類(lèi)型和邊界。
通過(guò)對(duì)例3的自動(dòng)識(shí)別,得到的部隊(duì)番號(hào)為“集團(tuán)軍”,由于其前后沒(méi)有明確表示“敵、友”的信息,所以部隊(duì)性質(zhì)為“我”方;獲取的地點(diǎn)信息是“2號(hào)高地…地段”、“3號(hào)高地…方向”、“竹山…地域”、“位昌…地域”、“贊皇縣城…方向”,沒(méi)有獲取到時(shí)間信息;句類(lèi)分析后獲得的方式輔塊為“集中主要兵力兵器”、“采取…的手段”,獲得的句類(lèi)代碼有“突破”、“突擊”、“殲滅”、“進(jìn)攻”;再通過(guò)分析句間連接詞獲得順序過(guò)程為“先”、“爾后”和“再”。因此,根據(jù)表1的框架填充該句群的情景框架如表2所示。
由此可見(jiàn),首先要獲得句群文本的領(lǐng)域,根據(jù)句群領(lǐng)域獲得其領(lǐng)域句類(lèi)表示式及其確定的情景框架;然后對(duì)句群文本進(jìn)行句類(lèi)分析和要素識(shí)別抽取,根據(jù)句類(lèi)分析的結(jié)果和情景框架的要求進(jìn)行填充。一般而言,時(shí)間、地點(diǎn)、方式、手段等輔塊屬于句群的背景信息,而句類(lèi)中的廣義對(duì)象語(yǔ)塊屬于情景框架中的要素各方,句類(lèi)中的特征語(yǔ)塊表示要執(zhí)行的動(dòng)作或者要素各方的關(guān)聯(lián)關(guān)系。
在語(yǔ)句單元情景框架的填充過(guò)程中,由于可能從句群中獲得多個(gè)要素,例如獲得多個(gè)時(shí)間或者多個(gè)地點(diǎn),此時(shí)如何取舍以及如何精煉信息是需要進(jìn)一步研究的問(wèn)題。對(duì)于要素各方,同樣有多個(gè)要素如何取舍以及如何合并的問(wèn)題,不能把所有的對(duì)象或要素都填充到框架中。
表2 句群情景框架(“作戰(zhàn)部署”)
依據(jù)本文提出的軍事文本中句群的語(yǔ)義框架分析模型,以及獲取部隊(duì)番號(hào)、時(shí)間地點(diǎn)等信息的算法,運(yùn)用HNC的句類(lèi)分析技術(shù),實(shí)現(xiàn)了一個(gè)用于軍事文書(shū)到要圖標(biāo)繪的一個(gè)文本自動(dòng)分析和標(biāo)圖要素獲取的系統(tǒng),如圖2所示。
圖2 基于語(yǔ)義分析的文圖轉(zhuǎn)換系統(tǒng)模塊圖
通過(guò)實(shí)際語(yǔ)料對(duì)本系統(tǒng)的測(cè)試結(jié)果表明,系統(tǒng)經(jīng)初步測(cè)試,單純由坐標(biāo)激活的地點(diǎn)信息識(shí)別準(zhǔn)確率達(dá)95.9%,召回率則為81.3%。經(jīng)過(guò)調(diào)試、改進(jìn),準(zhǔn)確率超過(guò)99.18%,召回率也能提升到98%。最重要的改進(jìn)是:軍事文書(shū)中的地名也不是全部標(biāo)上坐標(biāo),因?yàn)樯衔牡孛延凶鴺?biāo)而常常不再重復(fù),因此由坐標(biāo)激活的地名識(shí)別結(jié)果形成一個(gè)動(dòng)態(tài)地名庫(kù),視同已經(jīng)帶坐標(biāo),用于下文的地名識(shí)別。如此安排不至于提高了召回率而準(zhǔn)確率大降,而且也引進(jìn)了小小的動(dòng)態(tài)記憶能力。另外,通用地名庫(kù)中的地名如“河北省”、“石家莊”、“井陘縣”等可能組合到機(jī)構(gòu)名中(如“河北省獨(dú)立第2師”),不宜直接作為地名識(shí)別。時(shí)間點(diǎn)信息的獲取準(zhǔn)確率達(dá)到100%,番號(hào)識(shí)別的準(zhǔn)確率為88.42%。對(duì)于句類(lèi)分析后的語(yǔ)塊獲取以及綜合形成的句群文本的情景框架填充,因?yàn)樾枰罅康娜斯?biāo)注和句群劃分、領(lǐng)域標(biāo)注和情景框架填寫(xiě)等手工勞動(dòng),所以沒(méi)有給出具體的統(tǒng)計(jì)數(shù)據(jù)。從一些個(gè)別具體的語(yǔ)境單元填充來(lái)看,具有較高的準(zhǔn)確率可以提供要圖標(biāo)繪需要的信息。
本文采用HNC理論提出的句群的語(yǔ)境單元語(yǔ)義模型,建立了獲取要圖標(biāo)繪信息的模型和系統(tǒng)。提出了軍事文書(shū)中部隊(duì)番號(hào)的識(shí)別算法,根據(jù)軍事文書(shū)時(shí)間地點(diǎn)信息的特殊表達(dá)方法,給出了時(shí)間地點(diǎn)信息的獲取方法,實(shí)驗(yàn)表明具有99%以上的準(zhǔn)確率。運(yùn)用語(yǔ)句的句類(lèi)分析技術(shù)可以獲得語(yǔ)句中的特征語(yǔ)塊、廣義對(duì)象語(yǔ)塊和方式途徑等輔語(yǔ)塊信息,這些信息經(jīng)過(guò)分析整合后填充到句群的情景框架中,作為情景框架的要素可以轉(zhuǎn)換為要圖標(biāo)繪所需要的顏色、符號(hào)和箭頭等信息。
HNC理論構(gòu)造了一個(gè)龐大的語(yǔ)言本體,類(lèi)似于SUMO(Suggested Upper Merged Ontology),但遠(yuǎn)遠(yuǎn)超越了詞語(yǔ)和概念層次,涉及句類(lèi)、語(yǔ)境單元和文本記憶;采用的假設(shè)-檢驗(yàn)方法,類(lèi)似于模式匹配。而已有文獻(xiàn)中的軍事本體構(gòu)造則屬于SUMO統(tǒng)轄下的領(lǐng)域本體庫(kù),未形成統(tǒng)一的處理方法。
總而言之,軍事文書(shū)的特點(diǎn)保證了語(yǔ)言表達(dá)的準(zhǔn)確性和無(wú)二義性,為實(shí)現(xiàn)自動(dòng)的文本語(yǔ)義分析和信息自動(dòng)獲取提供了一定的便利條件。通過(guò)對(duì)軍事文書(shū)中句群的語(yǔ)義分析,可以獲取其中的要素信息和語(yǔ)義關(guān)系,這些要素信息和語(yǔ)義關(guān)系被統(tǒng)一到句群的情景框架中,再經(jīng)過(guò)情景框架要素到要圖標(biāo)繪信息的直接簡(jiǎn)單轉(zhuǎn)換就可以實(shí)現(xiàn)軍事文書(shū)的文圖自動(dòng)轉(zhuǎn)換。雖然實(shí)驗(yàn)系統(tǒng)取得了較高的識(shí)別準(zhǔn)確率和召回率,但是在實(shí)際語(yǔ)料的處理中還是遇到了如地名與番號(hào)混合、語(yǔ)句語(yǔ)義結(jié)構(gòu)分析錯(cuò)誤和句群領(lǐng)域情景框架知識(shí)規(guī)模較少等難題,這也是今后進(jìn)一步研究的方向。
[1]夏仕保.實(shí)用要圖標(biāo)繪指南[M].北京:軍事科學(xué)出版社,2004.
[2]李向陽(yáng),張亞非.一種軍用文圖自動(dòng)轉(zhuǎn)換方案[J].情報(bào)指揮控制系統(tǒng)與仿真技術(shù),2004,26(5):14-18.
[3]孫宏綱,姚景順,閆國(guó)玉.基于自然語(yǔ)言理解的軍事自動(dòng)標(biāo)圖系統(tǒng)[J].火力與指揮控制,2005,30(增刊):25-27.
[4]鮑廣宇,楊飛,劉曉明.軍事文本標(biāo)圖系統(tǒng)的設(shè)計(jì)與原型實(shí)現(xiàn)[J].解放軍理工大學(xué)學(xué)報(bào):自然科學(xué)版,2003,4(3):31-34.
[5]顧曉明,翟玉慶.一種基于本體的軍用文書(shū)的理解系統(tǒng)設(shè)計(jì)[J].現(xiàn)代計(jì)算機(jī),2006(3):69-72.
[6]秦曉周,楊天梁,劉增良.圖文互生轉(zhuǎn)換的實(shí)現(xiàn)方法[J].計(jì)算機(jī)仿真,2003,20(10):17-20.
[7]胡斌,湯偉,劉曉明.基于自然語(yǔ)言理解的文本標(biāo)圖系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].解放軍理工大學(xué)學(xué)報(bào):自然科學(xué)版,2005,6(2):132-136.
[8]楊健,高文逸,王衍波.一種作戰(zhàn)文書(shū)軍事標(biāo)圖自動(dòng)化方法[J].解放軍理工大學(xué)學(xué)報(bào):自然科學(xué)版,2006,7(6):543-547.
[9]姜文志,王迪,范洪達(dá),等.作戰(zhàn)指令自動(dòng)生成的關(guān)鍵模塊設(shè)計(jì)[J].指揮控制與仿真,2007,29(6):28-30.
[10]黃曾陽(yáng).HNC(概念層次網(wǎng)絡(luò))理論[M].北京:清華大學(xué)出版社,1998.
[11]黃曾陽(yáng).語(yǔ)言概念空間的基本定理和數(shù)學(xué)物理表示式[M].北京:海洋出版社,2004.
[12]苗傳江.HNC理論導(dǎo)論[M].北京:清華大學(xué)出版社,2005.
[13]晉耀紅.HNC語(yǔ)言理解技術(shù)及其應(yīng)用[M].北京:科學(xué)出版社,2006.
[14]李穎,王侃,池毓煥.面向漢英機(jī)器翻譯的語(yǔ)義塊構(gòu)成變換[M].北京:科學(xué)出版社,2009.
[15]吳晨,張全,賈寧.一種基于概念的信息檢索方法[J].東南大學(xué)學(xué)報(bào):英文版,2006,22(3):324-329.
[16]韋向峰,繆建明,張全.漢語(yǔ)句群領(lǐng)域的自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(4):11-15.
基于HNC語(yǔ)義分析模型的文圖轉(zhuǎn)換研究
李 穎1,池毓煥2
LI Ying1,CHI Yuhuan2
1.Department of Science Research,Academy of Armored Force Engineering,Beijing 100072,China
2.Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China
Transformation from military document into corresponding map can usually involve non-trivial manual work while automatic document-map transformation system may significantly contribute to the automation of military commanding.Based on the HNC theory and its semantic model,the paper proposes and implements a system that can automatically accomplish such a transformation.By automatically retrieving the name of a troop,temporal and spatial information,together with the result of analysis of sentence category,the proposed approach can fill the contextual framework of a sentence group,whose information can then be easily transferred into map information.Extensive experiments of real military document illustrate that the proposed method can reach a higher rate of precision and recall and hence provide a reliable approach for automatic document-map transformation.
semantic analysis;analysis of sentence category;military document;map depicting;document-map transferring
軍事文書(shū)轉(zhuǎn)換為要圖通常需要耗時(shí)費(fèi)力的人工工作,文圖的自動(dòng)轉(zhuǎn)換將大大促進(jìn)軍事指揮的自動(dòng)化水平?;贖NC理論及其語(yǔ)義模型提出并實(shí)現(xiàn)了一個(gè)文圖自動(dòng)轉(zhuǎn)換系統(tǒng),通過(guò)對(duì)軍事文書(shū)中部隊(duì)番號(hào)的自動(dòng)識(shí)別、時(shí)間地點(diǎn)要素的自動(dòng)獲取,以及語(yǔ)句的句類(lèi)分析可以獲得句群文本的語(yǔ)義情景框架,根據(jù)情景框架中的要素可以直接轉(zhuǎn)換為要圖標(biāo)繪所需的信息。實(shí)驗(yàn)表明軍事文書(shū)的文本自動(dòng)分析系統(tǒng)具有較高的準(zhǔn)確率和召回率,為實(shí)現(xiàn)軍事文書(shū)的文圖自動(dòng)轉(zhuǎn)換提供了一種可靠方法。
語(yǔ)義分析;句類(lèi)分析;軍事文書(shū);要圖標(biāo)繪;文圖轉(zhuǎn)換
A
TP391
10.3778/j.issn.1002-8331.1212-0049
LI Ying,CHI Yuhuan.Research on text-map transferring based on HNC semantic model.Computer Engineering and Applications,2013,49(11):135-139.
裝甲兵工程學(xué)院創(chuàng)新基金重點(diǎn)項(xiàng)目(No.2011CJ072)。
李穎(1964—),男,博士,副教授,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言理解處理、人工智能等;池毓煥(1967—),男,博士,助理研究員,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言理解處理、機(jī)器翻譯等。E-mail:lypublic@hotmail.com
2012-12-05
2013-04-12
1002-8331(2013)11-0135-05