陳 勇
(中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
隨著衛(wèi)星遙感技術(shù)的快速發(fā)展,各行各業(yè)對遙感影像數(shù)據(jù)的需求也越來越多,雖然應(yīng)用目的不同,各用戶的遙感數(shù)據(jù)需求存在多樣性,但不同用戶之間也會存在相似或相同需求,特別是在發(fā)生熱點事件和自然災(zāi)害事件時,各個參與單位會同時申請熱點地區(qū)和受災(zāi)區(qū)域的遙感影像數(shù)據(jù),這些數(shù)據(jù)往往會有相同或者相似的需求,如何融合來自不同用戶的需求,實現(xiàn)最大效率地利用衛(wèi)星觀測資源、地面接收資源、地面數(shù)據(jù)傳輸資源、降低衛(wèi)星對地觀測系統(tǒng)的任務(wù)負荷,需要開展需求融合歸并技術(shù)研究,將相同或者相似的用戶需求進行歸并處理。為了解決上述問題,基于自然語言處理的信息抽取技術(shù)提出了一種需求融合方法。
信息抽取是指從原始文本中抽取用戶感興趣的事件、實體和關(guān)系[1],并以結(jié)構(gòu)化形式存儲的技術(shù)[2]。近年來,信息抽取已經(jīng)在經(jīng)濟、醫(yī)藥和軍事等許多領(lǐng)域得到了成功應(yīng)用。沈元一等[3]提出互聯(lián)網(wǎng)藥品信息抽取和監(jiān)測的整體解決方案,對聯(lián)網(wǎng)商品信息進行全面、準確、實時、自動的抽取,有效地保障了互聯(lián)網(wǎng)藥品交易的質(zhì)量和服務(wù);孫師堯等[4]提出了適合軍事標圖系統(tǒng)應(yīng)用的信息抽取策略,可大幅縮短軍事標圖耗費的時間,實現(xiàn)軍事標圖系統(tǒng)自動化;梁帥等[5]設(shè)計并實現(xiàn)了一種病理文本數(shù)據(jù)的結(jié)構(gòu)化處理系統(tǒng),支持病理報告中標本及其指標值的自動提取,對同類病癥的治療和分析提供有力的數(shù)據(jù)支持。在海事領(lǐng)域,信息抽取技術(shù)也取得較好的應(yīng)用。吳建華[6]利用信息抽取技術(shù)建立了基于AIS的船舶交通流自動統(tǒng)計軟件,實現(xiàn)了船舶交通流的自動統(tǒng)計功能;原歡[7]采用基于規(guī)則的信息抽取技術(shù),提出了基于GATE的貨物動態(tài)郵件信息抽取方法。
第一個實現(xiàn)規(guī)則的機器學習方法的是Cristal信息抽取系統(tǒng)[8]。這個系統(tǒng)先從訓練樣本中生成規(guī)則集合,抽取方法是每一個實例提取出一個原始規(guī)則。然后循環(huán)從規(guī)則集合中選擇2個相似度最高的規(guī)則進行合并,最后得到最小規(guī)則集。Crystal系統(tǒng)目前只能夠支持單槽的信息抽取,其缺陷是無法確定目標字段的界限。WHISK[9]抽取系統(tǒng)通過將規(guī)則的約束條件不斷增加來得到最終的結(jié)果。此系統(tǒng)首先確定能夠能覆蓋所有樣例的規(guī)則,然后通過訓練樣本對規(guī)則增加特征和限制進行拓展,滿足一定的錯誤率要求后停止訓練,得到最終的集合。AutoSlog是基于模板詞典的規(guī)則構(gòu)造器,能夠自動構(gòu)造指定領(lǐng)域的詞典,這樣的模板也叫做概念節(jié)點。一個概念節(jié)點包含概念位元、語言規(guī)則以及觸發(fā)條件[10]。其中位元包含了一系列用于觸發(fā)的詞組,觸發(fā)條件對生成的語言規(guī)則在語法上進行一些約束。RAPIER[11]是基于邏輯的一種信息抽取系統(tǒng),從訓練語料上歸納出所需要的抽取規(guī)則。RAPIER采用的是自底向上的學習算法,從具體某一個樣本的規(guī)則歸納為覆蓋全集的范式。RAPIER系統(tǒng)在執(zhí)行規(guī)則生成的過程中運用了語義和句法的信息。SRV[12]是一種基于關(guān)聯(lián)的信息抽取系統(tǒng),采用自頂向下的歸納式算法進行信息抽取。該系統(tǒng)應(yīng)用分類算法完成抽取任務(wù),具有相同大小的文本數(shù)據(jù)被選取為候選項,這些候選項在信息抽取領(lǐng)域。傳統(tǒng)正則學習方法大多著眼于在相對小的字符表上進行正則表達式的學習[13]。常見情況是在詞性標注[14]、形態(tài)分析[15]和詞典匹配[16]等文本處理過程之后產(chǎn)生的標注詞上進行正則表達式的學習,字符表的大小就由以上分析步驟產(chǎn)生的標注結(jié)果所決定。另外,幾乎所有之前的工作都將問題限制在一個特定的正則類型中[17],禁用或限制了某些正則符號和操作的使用。
本文將自然語言處理中的關(guān)鍵信息抽取方法應(yīng)用于對地觀測用戶需求的智能融合處理,通過對需求文本的語義分析獲取觀測需求關(guān)鍵參數(shù)的方法,研究將觀測需求進行融合的方法。
基于自然語言處理的需求融合基本原理如圖1所示,包括關(guān)鍵信息抽取、需求轉(zhuǎn)義和融合歸并處理環(huán)節(jié),涉及信息抽取知識庫、需求轉(zhuǎn)義知識庫和融合知識庫。
圖1 基于自然語言處理的需求融合
用戶需求關(guān)鍵信息抽取步驟解決從用戶文本中抽取遙感影像關(guān)鍵信息元素的問題,抽取的信息包括時間范圍、地域范圍、任務(wù)和影像參數(shù)(空間分辨率、傳感器類型和波段)。實際上,關(guān)鍵信息抽取實現(xiàn)的是用戶需求的淺層語義分析,主要利用抽取規(guī)則實現(xiàn)關(guān)鍵信息的識別和抽取[1]。
關(guān)鍵信息抽取技術(shù)可分為3類:基于自然語言處理(NLP)的方法[18]、基于規(guī)則的方法和基于統(tǒng)計學習的方法[19]?;贜LP的方法是早期的信息抽取方法,一般效率較低,現(xiàn)已較少使用?;谝?guī)則的信息抽取方法依賴于信息抽取規(guī)則,信息抽取規(guī)則代表構(gòu)成目標信息的上下文約束環(huán)境,指明此規(guī)則的觸發(fā)詞、激活條件、上下文約束條件和目標信息的位置特征。其中,觸發(fā)詞用于指示目標信息上下文中必須含有的關(guān)鍵詞,激活條件指定必須滿足的語言模式,約束條件指定信息的合法性,信息的位置指定信息在句子或者段落中出現(xiàn)的位置特征?;诮y(tǒng)計的信息抽取需要有大量的訓練數(shù)據(jù),以獲取概率分布模型,但往往很難獲取足夠的訓練數(shù)據(jù)。
用戶的觀測需求描述通常遵循某種習慣模式,且具有一定規(guī)律性,這種模式和規(guī)律性使得采用基于規(guī)則的方法進行關(guān)鍵信息抽取成為可能,因此,在本文采用基于規(guī)則的方法進行關(guān)鍵信息抽取,主要是針對不同關(guān)鍵信息文本片段內(nèi)部組成的特征規(guī)律建立抽取規(guī)則,實現(xiàn)關(guān)鍵信息的識別和抽取。
在計算機科學中,正則表達式是指一個用來描述或者匹配一系列符合某個句法規(guī)則的字符串的單個字符串。一個正則表達式通常被稱為一個模式(pattern),用來描述或者匹配一系列符合某個句法規(guī)則的字符串[20]。例如:Handel,H?ndel,Haendel這3個字符串,都可以由“H(a|?|ae)ndel”這個模式來描述。大部分正則表達式的結(jié)構(gòu)形式如下[21]:
(1) 時間:時間關(guān)鍵信息文本片段內(nèi)部會出現(xiàn)“年、月、日、時、分、秒”等單位,通過對遙感影像用戶需求的分析,常見的表現(xiàn)方式是:年份數(shù)字+“年”+月份數(shù)字+“月”。
(2) 地理名稱:代表國家地區(qū)的地理名稱以及地物名稱,例如用戶需求“肯尼迪航天中心5 m全色影像”中的“肯尼迪航天中心”,“海南島10 m多光譜影像”中的“海南島”。另外,用戶需求描述中還會出現(xiàn)一些地理名稱和目標名稱的縮寫形式,例如,“日北海道3 m全色影像”中的“日”,它的常見表現(xiàn)形式是:國家地區(qū)名稱或者目標名稱。
(3) 經(jīng)緯度:經(jīng)緯度關(guān)鍵信息文本片段內(nèi)部格式主要有2種,一種是如“東經(jīng)120°,北緯23°”,另一種如“120E23N”。
(4) 任務(wù)類型:任務(wù)類型通常是一些業(yè)務(wù)術(shù)語,例如,“水下地形探測”“農(nóng)作物估產(chǎn)”“水污染監(jiān)測”“水資源調(diào)查”“冬小麥估產(chǎn)”等。其常見表現(xiàn)形式是:“2016年7月中上旬華北冬小麥估產(chǎn)”中的“冬小麥估產(chǎn)”,出現(xiàn)業(yè)務(wù)術(shù)語詞匯的上下文中通常沒有任務(wù)類型這樣的引導(dǎo)詞。
(5) 影像參數(shù):遙感影像需求中的影像參數(shù)包括分辨率、傳感器類型和幅寬,通過對遙感影像用戶需求的分析,上述參數(shù)常見的表現(xiàn)方式如下:
① 分辨率
方式1:“分辨率:”+ 數(shù)字+“~”+數(shù)字+“m”,例如,“分辨率:1~10 m”;
方式2:“分辨率:”+ 數(shù)字+“~”+數(shù)字+“米”,例如,“分辨率:1~10米”;
方式3:“分辨率:”+ 數(shù)字+ “m”,例如,“分辨率:10 m”;
方式4:“分辨率:”+ 數(shù)字+ “米”,例如,“分辨率:10米”。
② 傳感器類型
方式1:“傳感器類型:”+ 傳感器類型名稱,例如,“傳感器類型:多光譜”;
方式2:傳感器類型名稱,例如,“海南島10 m多光譜影像”中的“多光譜”。
③ 波段
方式1:“波段包含” + 波段名稱 + “(”+ 數(shù)字“~”+ 數(shù)字+“)nm”,例如,“波段包含近紅外(700~1 000 nm)”;
方式2:“波段包含”+ 波段名稱 + “和”+波段名稱,例如,“波段包含近紅外和短波紅外”;
方式3:“波段:”+ 波段名稱+“、”+ 波段名稱,例如,“波段:近紅外、短波紅外”;
方式4:“波段含有” + 數(shù)字 + “~”+ 數(shù)字 + “nm”,例如,波段含有2 000~3 500 nm。
④ 幅寬
方式1:“幅寬不低于”+ 數(shù)字 +“km”,例如,幅寬不低于200 km;
方式2:“幅寬不低于”+ 數(shù)字 +“公里”,例如,幅寬不小于200公里;
方式3:“幅寬”+“十里級/百里級/千里級”+“的影像”,例如,“幅寬百里級的影像”;
方式4:“十里級/百里級/千里級”的幅寬,例如,“百里級的幅寬”;
方式5:例如,“幅寬200公里以上”。
為了使抽取規(guī)則可被計算機理解和執(zhí)行,需要對信息抽取規(guī)則前提條件中的特征謂詞邏輯(特征詞信息和命名實體信息)進行格式化表達,為此采用正則表達式技術(shù)實現(xiàn)規(guī)則前提條件的格式化表達[4-6]。
以時間關(guān)鍵信息為例,相關(guān)的抽取規(guī)則示例如下:
① 時間信息實體抽取規(guī)則1
正則表達式:(\d){4}(-)(\d){2}(-)(\d){2}
示例:抽取形如“2013-10-29”的時間信息實體。
② 時間信息實體抽取規(guī)則2
正則表達式:(\d){4}(.)(\d){2}(.)(\d){2}(-)(\d){1,2}(:)(\d){1,2}
示例:抽取形如“2013.10.29-20:50”的時間信息實體。
③ 時間信息實體抽取規(guī)則3
正則表達式:(\d){4}(-)(\d){2}(-)(\d){2}(\d){1,2}(:)(\d){1,2}(:)(\d){1,2}
示例:抽取形如“2013-10-29 20:50:12”的時間信息實體。
④ 時間信息實體抽取規(guī)則4
正則表達式:(\d){4}(年)(\d){2}(月)(\d){2}(日)(\d){1,2}(時)(\d){1,2}(分)(\d){1,2}(秒)
示例:抽取形如“2013年10月29 日20時50分12秒”的時間信息實體。
⑤ 時間信息實體抽取規(guī)則5
正則表達式:
(\d){1,2}(時)(\d){1,2}(分)(\d){1,2}(秒)
示例:抽取形如“20時50分12秒”的時間實體。
從上述分析可以看出,用戶對于觀測需求中各種關(guān)鍵信息描述方式是多種多樣的,所對應(yīng)的抽取規(guī)則業(yè)務(wù)是多種多樣的,為了有效組織和管理關(guān)鍵信息的抽取規(guī)則,采用知識本體的方法,形成了信息抽取知識庫。
通過對用戶需求文本的分析,識別出各種關(guān)鍵信息的觸發(fā)詞、上下文約束條件、區(qū)位特征、句子特征和句內(nèi)特征,基于這些知識構(gòu)建由特征詞匯構(gòu)成的用戶需求解析規(guī)則,給定一個用戶觀測需求文本,利用特征詞匯形成的模式結(jié)構(gòu),結(jié)合前述4種要素的抽取模式,對需求文本進行解析,確定分別包含時間、地域、任務(wù)和傳感器參數(shù)的文本子串,以及各個文本子串中包含的具體的時間信息、地域信息、任務(wù)信息和影像參數(shù)信息。
例如,用戶需求“2016年4月下旬安徽省小麥紋枯病監(jiān)測,采用高光譜影像,空間分辨率優(yōu)于5 m”,可利用下面的模式進行解析:
【時間】+“對”【地域】+“進行”+【任務(wù)】+“采用”+【影響類型】+【空間分辨率】
解析出的時間信息、地域信息、任務(wù)信息和影像參數(shù)信息如表1所示。
表1 關(guān)鍵信息抽取示例
關(guān)鍵信息項關(guān)鍵信息值時間2016年4月下旬地域安徽省任務(wù)小麥紋枯病監(jiān)測影像參數(shù)(空間分辨率)空間分辨率優(yōu)于5 m影像參數(shù)(傳感器類型)高光譜影像
需求轉(zhuǎn)義是在用戶需求關(guān)鍵信息抽取的基礎(chǔ)上對抽取結(jié)果進行規(guī)范,使其滿足標準化和精確化的要求,實際上需求轉(zhuǎn)義實現(xiàn)的是用戶需求的深層語義分析。
① 時間信息的轉(zhuǎn)義:將識別出來的各種格式的時間轉(zhuǎn)變?yōu)闃藴矢袷健?/p>
② 地域信息的轉(zhuǎn)義:將識別出來的地域范圍轉(zhuǎn)變?yōu)橛梢幌盗薪?jīng)緯度值定義的多邊形。
③ 任務(wù)信息的轉(zhuǎn)義:將任務(wù)描述轉(zhuǎn)變?yōu)榫唧w的影像參數(shù),任務(wù)名稱的轉(zhuǎn)義基于需求轉(zhuǎn)義知識庫,知識庫中包含著任務(wù)與影像參數(shù)之間的映射關(guān)系,反映的是完成某種任務(wù)用戶所需的影像參數(shù),適用于各軍種的需求轉(zhuǎn)義知識庫,示例如表2所示。
表2 需求轉(zhuǎn)義知識庫示例
軍種任 務(wù)傳感器類型農(nóng)業(yè)農(nóng)業(yè)病蟲害監(jiān)測近紅外波段農(nóng)作物估產(chǎn)多光譜影像、全色農(nóng)作物長勢多光譜影像、全色農(nóng)作物的葉面指數(shù)中分辨率成像光譜儀春小麥面積監(jiān)測近紅外,短波紅外,可見光海洋海洋測深、水透明度、海流、油膜(泄漏)、海底類型、大氣能見度、潮汐、生物體發(fā)光、海灘特征、水下危險事件、大氣水汽總量、淺海水下地形高光譜海表面溫度紅外海平面平均高度、大地水準面、有效波高、海面風速、表層流、海面風場、海面溫度、海面風速。微波高度計交通區(qū)域交通壓力評價全色、SAR能源油氣田勘探高光譜環(huán)境大氣污染微波掃描輻射計
需求融合歸并是在統(tǒng)一、標準化的時間、地域、影像參數(shù)格式的基礎(chǔ)上進行的,根據(jù)時間、地域、傳感器類型、光譜分辨率、空間分辨率和幅寬等方面對用戶需求之間的相似度進行分析計算,根據(jù)計算結(jié)果進行需求融合歸并。需求的融合歸并問題實際是用戶需求的聚類過程,經(jīng)過聚類運算將一批用戶需求聚為若干個簇,簇內(nèi)的用戶需求在時間、地域、傳感器類型、光譜分辨率、空間分辨率和幅寬等方面相同或者相似。
為了計算需求之間的相似度,需求確定時間、地域、傳感器類型、光譜分辨率、空間分辨率和幅寬等方面相似度的量化標準。
為了計算需求之間的相似度,需要對需求在時間(T)、地域(A)、傳感器類型(S)、光譜分辨率(V)、空間分辨率(P)、幅寬(W)等指標上的相似度進行量化處理,實現(xiàn)在統(tǒng)一量綱下的相似度評估,相似度的計算公式為:
Similarity=T×λ1+A×λ2+S×λ3+V×
λ4+P×λ5+W×λ6,
式中,λ1,λ2,λ3,λ4,λ5,λ6是權(quán)重系數(shù),λ1+λ2+λ3+λ4+λ5+λ6=1。
構(gòu)建了遙感數(shù)據(jù)用戶需求融合處理原型系統(tǒng),原型系統(tǒng)的組成如圖2所示。
關(guān)鍵信息抽取模塊負責抽取用戶需求文本中的時間、地理范圍、任務(wù)和傳感器參數(shù)等關(guān)鍵信息,需求轉(zhuǎn)義模塊負責將抽取出的關(guān)鍵信息轉(zhuǎn)變?yōu)闃藴驶途_化的指標要求,融合歸并模塊負責將相同或者相似的用戶需求合并,知識庫管理模塊負責維護管理信息抽取知識庫、需求轉(zhuǎn)義知識庫和需求融合知識庫。
圖2 原型系統(tǒng)組成
利用農(nóng)業(yè)生產(chǎn)、國土資源和防災(zāi)減災(zāi)領(lǐng)域各100份用戶需求共計300份需求進行了需求融合試驗,試驗結(jié)果表明,融合歸并的正確率大于90.2%。部分用戶需求關(guān)鍵信息抽取、需求轉(zhuǎn)義及最終融合歸并結(jié)果示例如表3所示。
表3 用戶需求關(guān)鍵信息抽取需求轉(zhuǎn)義及最終融合歸并結(jié)果示例
序號需求樣例淺層解析結(jié)果深層解析結(jié)果融合后需求12008年天津春小麥面積監(jiān)測時間:2008年,地點:天津,對象事件:春小麥面積監(jiān)測時間:2008-1-1 0:00:00—2008-12-31 23:59:59,地點:中國天津市,west:116.657 888,east:118.026 289,north:40.194 066,south:38.548 975,對象事件:春小麥面積監(jiān)測,分辨率:10~20 m,觀測時間:6月1日—6月30日,光譜段:近紅外,短波紅外,可見光22008年北京春小麥面積監(jiān)測時間:2008年,地點:北京,對象事件:春小麥面積監(jiān)測時間:2008-1-1 0:00:00—2008-12-31 23:59:59,地點:中國北京市,west:115.404 177,east:117.464 825,north:41.057 009,south:39.417 053,對象事件:春小麥面積監(jiān)測,分辨率:10~20 m,觀測時間:6月1日—6月30日,光譜段:近紅外,短波紅外,可見光32008年河北春小麥面積監(jiān)測時間:2008年,地點:河北,對象事件:春小麥面積監(jiān)測時間:2008-1-1 0:00:00—2008-12-31 23:59:59,地點:中國河北省,west:113.439 867,east:119.802 968,north:42.562 44,south:36.038 584,對象事件:春小麥面積監(jiān)測,分辨率:10~20 m,觀測時間:6月1日—6月30日,光譜段:近紅外,短波紅外,可見光時間:2008-1-1 0:00:00—2008-12-31 23:59:59,地點:中國河北省,west:113.439 867,east:119.802 968,north:42.562 44,south:36.038 584,對象事件:春小麥面積監(jiān)測,分辨率:10~20 m,觀測時間:6月1日—6月30日,光譜段:近紅外,短波紅外,可見光
本文提出了一種利用自然語言處理技術(shù)實現(xiàn)對地觀測需求融合歸并的方法,利用文本信息抽取方法抽取觀測需求文本中的關(guān)鍵參數(shù),利用淺層和深層語義分析實現(xiàn)用戶需求的轉(zhuǎn)義,再利用聚類算法分別從時間、地域、傳感器類型、光譜分辨率、空間分辨率和幅寬等方面對用戶需求之間的相似度進行分析計算,將相同或者相似的用戶需求聚在一起,實驗結(jié)果表明,該方法能夠有效對自然語言形式的用戶需求進行融合歸并處理,正確率大于90.2%。
在未來工作中,將嘗試利用深度學習與自然語言處理相結(jié)合的方法進一步提高關(guān)鍵參數(shù)提取的準確率,進一步提升對地觀測用戶需求融合處理的效果。