俞鴻波
(中國(guó)西南電子技術(shù)研究所,成都 610036)
基于關(guān)聯(lián)性的目標(biāo)動(dòng)向熱點(diǎn)分析*
俞鴻波**
(中國(guó)西南電子技術(shù)研究所,成都610036)
為了從海量傳感器數(shù)據(jù)中及時(shí)發(fā)現(xiàn)重要目標(biāo)的動(dòng)向,提出了一種目標(biāo)動(dòng)向信息表征及關(guān)聯(lián)方法,即從多源異類傳感器獲取的信息中抽取出目標(biāo)關(guān)聯(lián)要素進(jìn)行動(dòng)向表征,利用語(yǔ)義決策樹實(shí)現(xiàn)動(dòng)向要素聚類,通過(guò)知識(shí)規(guī)則進(jìn)行關(guān)聯(lián)匹配擴(kuò)展,從而發(fā)現(xiàn)目標(biāo)動(dòng)向的熱點(diǎn),并進(jìn)一步統(tǒng)計(jì)分析目標(biāo)活動(dòng)規(guī)律與發(fā)展趨勢(shì)。實(shí)驗(yàn)表明所提出的基于關(guān)聯(lián)性的目標(biāo)動(dòng)向熱點(diǎn)分析算法準(zhǔn)確率高,具有實(shí)用價(jià)值。
信息關(guān)聯(lián);目標(biāo)動(dòng)向;熱點(diǎn)分析;語(yǔ)義決策樹
隨著傳感器技術(shù)的發(fā)展,傳感器用戶每天可獲得大量的數(shù)據(jù),如何從海量信息中及時(shí)發(fā)現(xiàn)重要目標(biāo)的動(dòng)向是用戶關(guān)注的重點(diǎn)問(wèn)題。傳統(tǒng)的信息分析方法主要是采取人工比對(duì)與綜合的方式進(jìn)行,如今,利用關(guān)聯(lián)分析技術(shù)提取出有用信息,有助于情報(bào)人員快速分析并做出決策。
關(guān)聯(lián)是目前常見(jiàn)的術(shù)語(yǔ),主要用于關(guān)系型數(shù)據(jù)庫(kù)、語(yǔ)義網(wǎng)Web、數(shù)據(jù)挖掘等應(yīng)用領(lǐng)域。在關(guān)系型數(shù)據(jù)庫(kù)應(yīng)用領(lǐng)域中,關(guān)聯(lián)指的是一種數(shù)據(jù)的某些特性變化會(huì)引起另一種數(shù)據(jù)對(duì)應(yīng)變化的關(guān)系;在語(yǔ)義網(wǎng)中,關(guān)聯(lián)數(shù)據(jù)是指用以RDF/XML格式描述的元數(shù)據(jù)信息,且通過(guò)鏈接指向其他RDF數(shù)據(jù)的數(shù)據(jù),即通過(guò)網(wǎng)址鏈接形成富含元數(shù)據(jù)信息的數(shù)據(jù)關(guān)聯(lián);在數(shù)據(jù)挖掘領(lǐng)域,關(guān)聯(lián)分析主要是指關(guān)聯(lián)規(guī)則挖掘[1],即發(fā)現(xiàn)數(shù)據(jù)庫(kù)的項(xiàng)和屬性之間存在的不易察覺(jué)的聯(lián)系,而這些聯(lián)系往往預(yù)先未知,且無(wú)法通過(guò)結(jié)構(gòu)化數(shù)據(jù)庫(kù)的簡(jiǎn)單查詢操作獲取。最著名的關(guān)聯(lián)規(guī)則是Apriori算法[2],其設(shè)計(jì)思想是通過(guò)多次迭代運(yùn)算找出頻繁項(xiàng)集,從而發(fā)現(xiàn)各數(shù)據(jù)項(xiàng)之間的隱藏關(guān)聯(lián)關(guān)系,生成形如X=>Y的規(guī)則。
在針對(duì)目標(biāo)動(dòng)向研究領(lǐng)域,國(guó)內(nèi)外的研究重點(diǎn)主要集中在命名實(shí)體識(shí)別和突發(fā)事件的識(shí)別等。其中,命名實(shí)體識(shí)別技術(shù)的主要研究成果包括中科院自動(dòng)化所的漢語(yǔ)詞法分析系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)等;突發(fā)事件的識(shí)別大多面向特定的領(lǐng)域,如金融領(lǐng)域、網(wǎng)絡(luò)故障領(lǐng)域、災(zāi)難性事件等,成果包括北京郵電大學(xué)陳莉萍等進(jìn)行的突發(fā)事件識(shí)別的研究[3]。文獻(xiàn)[4-5]針對(duì)文本信息中人物目標(biāo)動(dòng)向的感知與關(guān)聯(lián)方面進(jìn)行了相關(guān)研究,在完成文本中命名實(shí)體識(shí)別后,再運(yùn)用句法分析建立人物動(dòng)向語(yǔ)義信息,通過(guò)本體建模形成的關(guān)系模型抽取人物動(dòng)向之間的關(guān)聯(lián)關(guān)系。上述方法在應(yīng)用中的主要限制在于僅針對(duì)文本信息中的人物動(dòng)向進(jìn)行分析,且前期本體建模工作量巨大。
本文主要以??諜C(jī)動(dòng)目標(biāo)為研究對(duì)象,著重研究通過(guò)關(guān)聯(lián)分析技術(shù)實(shí)現(xiàn)該類目標(biāo)動(dòng)向識(shí)別與聚類,并發(fā)現(xiàn)目標(biāo)活動(dòng)的熱點(diǎn)、規(guī)律與趨勢(shì),其中熱點(diǎn)包括熱點(diǎn)平臺(tái)、熱點(diǎn)區(qū)域及相關(guān)的熱點(diǎn)行為。
目標(biāo)是指具備行為能力的實(shí)體或者物體,目標(biāo)動(dòng)向是指目標(biāo)的一切行為活動(dòng)。根據(jù)所使用傳感器的類型,能夠獲取到目標(biāo)動(dòng)向信息的載體包括文本、圖像、視頻、格式化數(shù)據(jù)等。經(jīng)過(guò)對(duì)相關(guān)資料的整理,目標(biāo)動(dòng)向可描述如下∶
目標(biāo)動(dòng)向∶={特征<固有特征、動(dòng)態(tài)特征、感知特征、狀態(tài)特征>、要素<發(fā)生時(shí)間、發(fā)生地點(diǎn)、目標(biāo)行為、人物、關(guān)聯(lián)人物、平臺(tái)、關(guān)聯(lián)平臺(tái)、關(guān)聯(lián)組織機(jī)構(gòu)>、模式<規(guī)律、異常>}。
其中,目標(biāo)動(dòng)向模型由目標(biāo)自身蘊(yùn)含的特征和目標(biāo)動(dòng)向行為等來(lái)表征,如圖1所示。目標(biāo)特征包括固有特征、動(dòng)態(tài)特征、感知特征、狀態(tài)特征,固有特征是目標(biāo)獨(dú)特唯一具有的不變特征,例如目標(biāo)機(jī)動(dòng)能力、外形特征等;動(dòng)態(tài)特征是目標(biāo)的行為規(guī)律;感知特征是目標(biāo)被傳感器捕獲后表現(xiàn)出的特征,如目標(biāo)在聲、光、電上表現(xiàn)出的特征;狀態(tài)特征指目標(biāo)當(dāng)前具備的狀態(tài),如巡邏、警戒等。目標(biāo)動(dòng)向由動(dòng)向要素和動(dòng)向模式組成,其中動(dòng)向要素是組成動(dòng)向的實(shí)體,包括時(shí)間、地點(diǎn)、行為等,是組成目標(biāo)動(dòng)向的主體;動(dòng)向模式包括規(guī)律和異常,是目標(biāo)動(dòng)向在時(shí)空層面表現(xiàn)出的統(tǒng)計(jì)特性。
圖1 目標(biāo)動(dòng)向概念模型Fig.1 Target activity conceptional model
在應(yīng)用中,目標(biāo)動(dòng)向分析通常以某一事件或目標(biāo)作為中心或起點(diǎn)進(jìn)行研究,其中經(jīng)常從時(shí)空和類別層面對(duì)相關(guān)本體或事件進(jìn)行關(guān)聯(lián)組織,便于更進(jìn)一步的挖掘深層次信息。雖然當(dāng)前對(duì)目標(biāo)動(dòng)向關(guān)聯(lián)的研究需求迫切,并有一些相關(guān)概念的研究,但在宏觀格局上的認(rèn)識(shí)并未形成體系,對(duì)目標(biāo)動(dòng)向間聯(lián)系的類型劃分也缺乏專門的探討,導(dǎo)致現(xiàn)有概念之間缺乏好的繼承和整合。因此,本文基于目標(biāo)動(dòng)向模型演化出目標(biāo)動(dòng)向關(guān)聯(lián)模型,試圖對(duì)概念進(jìn)行整合和宏觀把握。
按照目標(biāo)動(dòng)向的關(guān)聯(lián)要素,可將其劃分為目標(biāo)主體型關(guān)聯(lián)、背景主題型關(guān)聯(lián)和行為模式型關(guān)聯(lián)。其中,目標(biāo)主體型關(guān)聯(lián)主要關(guān)注目標(biāo)動(dòng)向中的相關(guān)主體特征及要素,包括時(shí)空主體、平臺(tái)主體、人物主體、特征主體等;目標(biāo)動(dòng)向由于顯見(jiàn)或潛在突出或不突出的主體因素也能產(chǎn)生關(guān)聯(lián),如某艦隊(duì)行為和艦隊(duì)指揮官的行為之間存在潛在關(guān)聯(lián)性;行為模式型關(guān)聯(lián)主要關(guān)注目標(biāo)間活動(dòng)模式之間的關(guān)聯(lián),比如具有相同活動(dòng)模式與規(guī)律的海監(jiān)巡航編隊(duì);主題型關(guān)聯(lián)是指具有相似或者相同背景主題而產(chǎn)生的廣義目標(biāo)或動(dòng)向事件的關(guān)聯(lián),譬如以東海巡航為討論主題,關(guān)聯(lián)目標(biāo)動(dòng)向包括南海維權(quán)事件和建設(shè)東海防空識(shí)別區(qū)等。基于上述研究范疇,圍繞目標(biāo)動(dòng)向的主體事件出現(xiàn)多方面的關(guān)聯(lián)線索與方向,形成如圖2所示的目標(biāo)動(dòng)向關(guān)聯(lián)模型。由于主題間具有隱式關(guān)聯(lián)關(guān)系,主題間的關(guān)聯(lián)關(guān)系可依據(jù)動(dòng)向要素的核心性共現(xiàn)詞語(yǔ)進(jìn)行關(guān)聯(lián)。
圖2 目標(biāo)動(dòng)向關(guān)聯(lián)模型Fig.2 Correlation model of target activity
由前文所述,目標(biāo)動(dòng)向信息中既包含了目標(biāo)的基本特征屬性,又包括了目標(biāo)動(dòng)向的基本要素描述,還包含了目標(biāo)行為的深層次語(yǔ)義特征和相關(guān)知識(shí)。其中動(dòng)向要素形成了目標(biāo)動(dòng)向的底層描述,可以從傳感器數(shù)據(jù)中通過(guò)統(tǒng)計(jì)、匹配、識(shí)別等方式獲取。目標(biāo)動(dòng)向要素建立了傳感器數(shù)據(jù)和目標(biāo)動(dòng)向模式的紐帶,基于目標(biāo)動(dòng)向要素的關(guān)聯(lián)分析可支撐目標(biāo)動(dòng)向模式的深度挖掘與分析。因此,本文中目標(biāo)動(dòng)向信息分析的主要思路就是從傳感器數(shù)據(jù)中抽取目標(biāo)動(dòng)向要素,并建立不同源傳感器數(shù)據(jù)中基于目標(biāo)動(dòng)向的關(guān)聯(lián)關(guān)系,在目標(biāo)動(dòng)向相關(guān)性的基礎(chǔ)上進(jìn)一步發(fā)現(xiàn)目標(biāo)活動(dòng)的熱點(diǎn)、規(guī)律與趨勢(shì)。
如圖3所示,目標(biāo)動(dòng)向要素關(guān)聯(lián)分析方法處理流程分為如下步驟∶
(1)從多種類、多格式、多媒介的海量信息中抽取目標(biāo)動(dòng)向要素;
(2)構(gòu)建目標(biāo)動(dòng)向要素特征向量,利用語(yǔ)義決策樹對(duì)目標(biāo)動(dòng)向要素進(jìn)行關(guān)聯(lián)聚類;
(3)對(duì)目標(biāo)動(dòng)向要素進(jìn)行知識(shí)擴(kuò)展,進(jìn)一步關(guān)聯(lián)出潛在的動(dòng)向主體;
(4)結(jié)合動(dòng)向背景,對(duì)動(dòng)向主體進(jìn)行統(tǒng)計(jì)、相關(guān)排序、預(yù)測(cè),發(fā)現(xiàn)動(dòng)向熱點(diǎn)。
圖3 目標(biāo)動(dòng)向要素關(guān)聯(lián)分析方法處理流程Fig.3 Flowchart of target activity factor correlation
3.1目標(biāo)動(dòng)向要素抽取與結(jié)構(gòu)化
3.1.1時(shí)空結(jié)構(gòu)化
傳感器原始數(shù)據(jù)種類雖多,但數(shù)據(jù)的基本屬性一般都包含空間屬性和時(shí)間屬性。其中,空間屬性通過(guò)經(jīng)緯高或者地址名稱等方式表達(dá)了目標(biāo)活動(dòng)的相關(guān)區(qū)域;時(shí)間屬性則是通過(guò)將目標(biāo)的歷史活動(dòng)軌跡投影到時(shí)間軸的方式,來(lái)表達(dá)目標(biāo)動(dòng)向的時(shí)間點(diǎn)或者時(shí)間段。在實(shí)現(xiàn)關(guān)聯(lián)前,必須對(duì)各類數(shù)據(jù)進(jìn)行時(shí)空化分類處理以統(tǒng)一格式和標(biāo)準(zhǔn),如圖4所示。
圖4 時(shí)空化數(shù)據(jù)分類處理Fig.4 Class of temporal and spacial data
本文使用ICTCLAS自動(dòng)分詞系統(tǒng)對(duì)原始數(shù)據(jù)進(jìn)行分詞,在得到分詞序列的基礎(chǔ)上進(jìn)行自動(dòng)詞性標(biāo)注,然后進(jìn)行命名實(shí)體識(shí)別,提取時(shí)空信息。其中,基于863詞性標(biāo)注集,利用條件隨機(jī)域CRF詞性標(biāo)注器進(jìn)行詞性標(biāo)注[6],使用Viterbi動(dòng)態(tài)優(yōu)化方法,即可求出最佳詞性標(biāo)注序列。
(1)時(shí)間信息抽取
詞性標(biāo)注后的分詞序列仍然是信息量較少、語(yǔ)義不完整的單詞,需要通過(guò)命名實(shí)體識(shí)別,識(shí)別出有語(yǔ)義的短語(yǔ)和詞組。有語(yǔ)義的短語(yǔ)和詞組就是要識(shí)別的命名實(shí)體,通常通過(guò)模板規(guī)則來(lái)表征實(shí)體要素的表達(dá)規(guī)則。依據(jù)中文命名實(shí)體(NE)識(shí)別方法,即可建立時(shí)間表達(dá)的實(shí)體規(guī)則。規(guī)則包括∶數(shù)字+年|月|日,例如,2012年,09年12月;數(shù)字+“年代”或“世紀(jì)”,例如,20世紀(jì),90年代;數(shù)字+時(shí)|分|秒|點(diǎn),例如,上午09hh∶08mm∶17ss。
(2)空間信息抽取與同化
地理空間的實(shí)體之間有包含和非包含的關(guān)系,包含關(guān)系的地名實(shí)體直接組合成一個(gè)實(shí)體,非包含關(guān)系的實(shí)體合并成集合形式。由于命名規(guī)則極不規(guī)范,應(yīng)用時(shí)為了快速準(zhǔn)確定位,必須進(jìn)行規(guī)范化操作和地理同化。
方式一∶自動(dòng)匹配切詞技術(shù)。將地址按照數(shù)據(jù)庫(kù)中地址/地名信息自動(dòng)匹配切詞,該方式的優(yōu)點(diǎn)是具有唯一性和高效性。
方式二∶GPS定位。對(duì)GPS類定位數(shù)據(jù),提取數(shù)據(jù)的經(jīng)緯度位置、高度信息,并轉(zhuǎn)換到統(tǒng)一的橢球坐標(biāo)系下。同時(shí),根據(jù)數(shù)據(jù)的產(chǎn)生以及傳感器特點(diǎn)(包括傳感器的類型特點(diǎn)、精度等),計(jì)算數(shù)據(jù)定位的誤差范圍,進(jìn)行定位匹配處理。
方式三∶地址庫(kù)匹配。即將地址數(shù)據(jù)與在知識(shí)庫(kù)中存儲(chǔ)的地理數(shù)據(jù)信息進(jìn)行相關(guān)性匹配,從而獲取相應(yīng)的地址信息。
3.1.2主體信息結(jié)構(gòu)處理
動(dòng)向要素中主體信息包括人物、關(guān)聯(lián)人物、平臺(tái)、關(guān)聯(lián)平臺(tái)、目標(biāo)行為等要素,對(duì)該類信息的抽取根據(jù)傳感器數(shù)據(jù)文件類型的不同而有所區(qū)別。對(duì)于圖像類數(shù)據(jù),利用圖像解譯算法對(duì)數(shù)據(jù)自動(dòng)或交互式添加語(yǔ)義標(biāo)簽。例如,利用目標(biāo)檢測(cè)與識(shí)別等算法對(duì)數(shù)據(jù)自動(dòng)添加語(yǔ)義標(biāo)簽,并將目標(biāo)名稱及屬性對(duì)應(yīng)的語(yǔ)義標(biāo)簽添加到平臺(tái)要素中。對(duì)于視頻類數(shù)據(jù),則首先進(jìn)行視頻文件的結(jié)構(gòu)化處理,結(jié)構(gòu)化過(guò)程首先通過(guò)邊界檢測(cè)方法將視頻分割為多個(gè)鏡頭,然后提取每個(gè)鏡頭的關(guān)鍵幀來(lái)代表整個(gè)視頻的內(nèi)容。在完成了鏡頭邊界檢測(cè)和關(guān)鍵幀提取后,利用前述的圖像解譯算法及語(yǔ)音識(shí)別算法實(shí)現(xiàn)對(duì)視頻內(nèi)主體信息的提取。對(duì)于文字類信息,通過(guò)建立專業(yè)領(lǐng)域詞典,提取各要素,例如∶目標(biāo)行為要素包括巡邏、偵察、航渡等。具體過(guò)程本文不再贅述。
3.2動(dòng)向要素特征向量的語(yǔ)義決策樹關(guān)聯(lián)
根據(jù)提取出的描述目標(biāo)動(dòng)向事件的基本要素構(gòu)建一個(gè)描述動(dòng)向的特征向量,假設(shè)描述第i項(xiàng)傳感器中包含向量X(i)∶
多源傳感器獲取目標(biāo)信息使用基于要素知識(shí)模板的向量空間表示后,成為規(guī)則的動(dòng)向要素描述數(shù)據(jù)。然后利用語(yǔ)義決策樹的方法,依據(jù)要素關(guān)系進(jìn)行關(guān)聯(lián)。選擇語(yǔ)義決策樹的主要原因一是特征向量由非數(shù)值型的屬性組成,決策樹算法在聚類過(guò)程中可比對(duì)屬性的標(biāo)稱值,適合于標(biāo)稱屬性向量的非數(shù)值計(jì)算;二是多源目標(biāo)信息關(guān)聯(lián)是一個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程,對(duì)于能挖掘出多少知識(shí)信息不能確定,很大程度上與數(shù)據(jù)隱藏了多少潛在的知識(shí)有關(guān),因此,不能預(yù)計(jì)關(guān)聯(lián)聚類結(jié)果的數(shù)目,決策樹能夠依據(jù)屬性取值進(jìn)行自由分裂和合并,從而適應(yīng)聚類數(shù)目不確定的情況。
在決策樹算法應(yīng)用中,通過(guò)從根結(jié)點(diǎn)到葉子結(jié)點(diǎn)的排列來(lái)分類樣本實(shí)例。對(duì)于目標(biāo)動(dòng)向所屬的文件來(lái)說(shuō),決策樹的結(jié)點(diǎn)代表了文件中目標(biāo)動(dòng)向的所屬分類,而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)動(dòng)向所包含特征向量中要素的對(duì)象取值。通過(guò)選擇最有助于分類目標(biāo)動(dòng)向?qū)嵗膶傩宰鳛榻Q策樹的上層結(jié)點(diǎn),所以根結(jié)點(diǎn)一般是特征向量中最優(yōu)的屬性。
使用信息增益來(lái)統(tǒng)計(jì)并衡量屬性區(qū)分給定訓(xùn)練樣例的能力[7]。為了精確定義信息增益,使用熵刻畫任意樣例集的純度。給定包含c個(gè)聚類的樣本集合S,那么S的熵定義為
式中∶pi為樣本集合S中屬于類別i的概率。
此時(shí),屬性A相對(duì)于樣本集合S的信息增益Gain(S,A)被定義為
式中∶Value(A)是屬性A的取值范圍集合;Sv是樣本集合中屬性值為v的子集合,即Sv={s∈S|A(s)=v}。通常具有最高信息增益的屬性是最好的屬性,使用最好的屬性作為建立決策樹的根節(jié)點(diǎn)。本文使用ID3算法訓(xùn)練,ID3算法增長(zhǎng)樹的每一步使用屬性的信息增益作為選取最佳屬性的度量標(biāo)準(zhǔn)。
由訓(xùn)練集S構(gòu)造最佳決策樹的算法描述如下[7]∶
創(chuàng)建結(jié)點(diǎn)N。
如果S為空,則返回節(jié)點(diǎn),標(biāo)記失敗。
If S中的元組都在同類C中,Then返回N作為葉子結(jié)點(diǎn),用類C標(biāo)記結(jié)點(diǎn)N。
If屬性列表為空,Then返回N作為葉結(jié)點(diǎn),用S中的多數(shù)類標(biāo)記結(jié)點(diǎn)N。
For splitting_criterion每個(gè)輸出j
設(shè)Sj是S中滿足輸出j的數(shù)據(jù)元組的集合;
If Sj為空
增加葉結(jié)點(diǎn)N,標(biāo)記為訓(xùn)練集中的多數(shù)類;
Else
增加由Generate_decision_tree(Sj,Attribute_list)返回的結(jié)點(diǎn)到N。
End For
返回根節(jié)點(diǎn)
說(shuō)明∶Generate_decision_tree函數(shù)通過(guò)對(duì)決策樹各分支的子集遞歸調(diào)用的方式建立決策樹結(jié)點(diǎn)的分支。
根據(jù)動(dòng)向特征向量中要素構(gòu)成的假設(shè)決策樹理論上有很多,但很多決策結(jié)果在實(shí)際應(yīng)用中比較少見(jiàn),本文關(guān)注的決策樹主要是目標(biāo)在地點(diǎn)的活動(dòng)行為,使用Tree(目標(biāo),地點(diǎn),行為,時(shí)間)表示。語(yǔ)義決策樹的關(guān)聯(lián)聚類見(jiàn)圖5。
圖5 語(yǔ)義決策樹關(guān)聯(lián)聚類處理Fig.5 Correlative classification of decision tree
語(yǔ)義決策樹的聚類結(jié)果代表目標(biāo)動(dòng)向要素屬性值合取的析取式,每一條路徑都代表了一類目標(biāo)動(dòng)向的聚類結(jié)果。例如,<目標(biāo)=中國(guó)海監(jiān)編隊(duì)∧地點(diǎn)=某海域∧時(shí)間=2012年∧行為=巡邏>代表了在“某海域”主題下搜索到的信息中,2012年中國(guó)海監(jiān)船編隊(duì)在某海域活動(dòng)的行為等情況。
3.3擴(kuò)展關(guān)聯(lián)查詢
基于要素的聚類關(guān)聯(lián)能夠發(fā)現(xiàn)某個(gè)主題下??諜C(jī)動(dòng)目標(biāo)的活動(dòng)情況,根據(jù)關(guān)聯(lián)知識(shí)規(guī)則進(jìn)行關(guān)聯(lián)人物和關(guān)聯(lián)組織機(jī)構(gòu)的擴(kuò)展,能夠發(fā)現(xiàn)關(guān)鍵人物的活動(dòng)信息,并發(fā)現(xiàn)潛在目標(biāo)關(guān)聯(lián)信息,如從某艦船編隊(duì)的動(dòng)向擴(kuò)展關(guān)聯(lián)出編隊(duì)指揮官的相關(guān)行為和言論。關(guān)聯(lián)要素的擴(kuò)展查詢需要建立基于目標(biāo)要素的知識(shí)規(guī)則庫(kù)。知識(shí)規(guī)則庫(kù)是基于要素詞典建立的知識(shí)擴(kuò)展映射表格,是基于領(lǐng)域知識(shí)對(duì)要素項(xiàng)的進(jìn)一步聯(lián)想與擴(kuò)展。
根據(jù)決策樹聚類和擴(kuò)展查詢的結(jié)果,把傳感器數(shù)據(jù)聚類成不同的分組,保存數(shù)據(jù)之間的分組關(guān)系,作為已知信息用于后續(xù)熱點(diǎn)分析。
3.4動(dòng)向熱點(diǎn)分析
動(dòng)向熱點(diǎn)定義為指定時(shí)間段內(nèi)頻繁發(fā)生的目標(biāo)動(dòng)向,對(duì)??諜C(jī)動(dòng)目標(biāo)來(lái)說(shuō),就是某類目標(biāo)頻繁的行為活動(dòng)。下面介紹動(dòng)向熱點(diǎn)的分析方法的具體步驟。
(1)對(duì)某類目標(biāo)的活躍度進(jìn)行評(píng)估。在上述關(guān)聯(lián)聚類結(jié)果中,對(duì)目標(biāo)名稱或者類屬進(jìn)行相似性檢測(cè),經(jīng)過(guò)統(tǒng)計(jì)后即可發(fā)現(xiàn)目標(biāo)活動(dòng)的頻率、目標(biāo)熱點(diǎn)活動(dòng)區(qū)域、目標(biāo)活動(dòng)的熱點(diǎn)時(shí)間段,并對(duì)目標(biāo)活躍度進(jìn)行演化預(yù)測(cè),若演化預(yù)測(cè)出的目標(biāo)活躍度提升達(dá)到預(yù)警值,則提示相關(guān)部門采取應(yīng)對(duì)措施。
本文中,目標(biāo)動(dòng)向的趨向性演化預(yù)測(cè)采用馬爾科夫預(yù)測(cè)模型[8],具體描述如下∶
(2)對(duì)于關(guān)聯(lián)出的熱點(diǎn)目標(biāo)動(dòng)向信息,通過(guò)對(duì)應(yīng)傳感器信息文件的主題進(jìn)行相似度計(jì)算,將相似度高的主題提取出來(lái),作為目標(biāo)動(dòng)向?qū)?yīng)的熱點(diǎn)主題呈現(xiàn)給用戶。
主題相似度計(jì)算采用相似度SimF(c1,c2)來(lái)計(jì)算∶
式中∶參數(shù)α和β值的大小決定了主題c1和c2間語(yǔ)義相似度的取值。在同樣的距離下,α和β的值越大對(duì)應(yīng)的相似度就越小,通常語(yǔ)義距離為1時(shí),α和β的取值要保證相似度在0.5以上。
4.1數(shù)據(jù)描述
以某海域事件為背景構(gòu)建仿真數(shù)據(jù),仿真某海域事件主題下的3 000份文件,包括文本、圖像、視頻和目標(biāo)數(shù)據(jù),其中涉及到的主題包括“巡航”、“登島維權(quán)”等共7大類13個(gè)小類。
4.2測(cè)評(píng)指標(biāo)
可由熱點(diǎn)識(shí)別準(zhǔn)確率和召回率對(duì)熱點(diǎn)分析結(jié)果進(jìn)行量化分析。熱點(diǎn)分析準(zhǔn)確率指標(biāo)定義為式中∶Eb表示標(biāo)示出的熱點(diǎn)類別;Ed表示經(jīng)過(guò)關(guān)聯(lián)分析后檢索出的熱點(diǎn)類別。
4.3關(guān)聯(lián)及熱點(diǎn)識(shí)別結(jié)果
利用3.1節(jié)方法,對(duì)某海域沖突事件仿真數(shù)據(jù)經(jīng)過(guò)抽取后,形成包括“海監(jiān)船編隊(duì)”、“漁政船”、“某無(wú)人機(jī)”等平臺(tái)及對(duì)應(yīng)的時(shí)間要素、地理空間要素和行為要素,根據(jù)3.2節(jié)和3.3節(jié)介紹的語(yǔ)義決策樹方法完成關(guān)聯(lián)聚類后進(jìn)行熱點(diǎn)分析,共形成平臺(tái)-地理-行為熱點(diǎn)17類,經(jīng)過(guò)交互類屬合并后為14類。關(guān)聯(lián)出目標(biāo)動(dòng)向后,分析出的熱點(diǎn)主題包括巡航、領(lǐng)土安全、購(gòu)島、中日關(guān)系等。通過(guò)式(6)計(jì)算,熱點(diǎn)分析準(zhǔn)確率達(dá)到92.8%,滿足了應(yīng)用中對(duì)動(dòng)向熱點(diǎn)準(zhǔn)確識(shí)別的需求。
以月度作為統(tǒng)計(jì)周期,統(tǒng)計(jì)了半年的傳感器數(shù)據(jù),對(duì)其中關(guān)注的典型目標(biāo)包括海監(jiān)船、海監(jiān)飛機(jī)和漁政船的的活躍度進(jìn)行評(píng)估,形成了圖6所示結(jié)果,可以看出到2014年4月形成了動(dòng)向峰值,與主題聚類的結(jié)果形成了互印證。
圖6 典型目標(biāo)動(dòng)向趨向性分析Fig.6 The activity trend analysis graph of concerned targets
本文主要研究了目標(biāo)動(dòng)向信息表征及關(guān)聯(lián)方法,從多源異類傳感器獲取的信息中抽取出目標(biāo)關(guān)聯(lián)要素進(jìn)行動(dòng)向表征,利用語(yǔ)義決策樹實(shí)現(xiàn)動(dòng)向要素聚類,并通過(guò)關(guān)聯(lián)知識(shí)規(guī)則進(jìn)行匹配擴(kuò)展,建立目標(biāo)動(dòng)向間的關(guān)聯(lián)關(guān)系,從而發(fā)現(xiàn)目標(biāo)動(dòng)向的熱點(diǎn),并進(jìn)一步統(tǒng)計(jì)分析目標(biāo)活動(dòng)規(guī)律與發(fā)展趨勢(shì)。文中重點(diǎn)描述了目標(biāo)動(dòng)向概念模型及動(dòng)向關(guān)聯(lián)模型的構(gòu)建及動(dòng)向要素的關(guān)聯(lián)聚類方法。與傳統(tǒng)的方法相比,本文方法的主要優(yōu)點(diǎn)在于∶
首先,方法針對(duì)的數(shù)據(jù)類型包括多源信息數(shù)據(jù),除了文本之外,還包括了圖像、視頻、格式化傳感器數(shù)據(jù)等;
其次,方法綜合使用基于規(guī)則的命名實(shí)體識(shí)別技術(shù)和模式識(shí)別技術(shù)解決目標(biāo)動(dòng)向的抽取與聚類,避免了采用復(fù)雜的句法分析,從目標(biāo)行為宏觀語(yǔ)義的角度實(shí)現(xiàn)了目標(biāo)信息關(guān)聯(lián);
此外,本文的方法區(qū)別于關(guān)鍵詞檢索的不同在于,關(guān)鍵詞檢索使用戶只能查詢哪些信息文件中出現(xiàn)了用戶關(guān)注目標(biāo),返回的結(jié)果集數(shù)據(jù)量巨大,因此,還需要結(jié)合上下文采用人機(jī)交互的方式,從結(jié)果集中綜合判定獲取目標(biāo)信息的正確性;而本文方法則是在關(guān)聯(lián)過(guò)程中,利用目標(biāo)動(dòng)向的背景知識(shí)進(jìn)行主題事件的聚合與印證,關(guān)聯(lián)過(guò)程不再是僅用特定詞語(yǔ)的檢索,更加具有針對(duì)性和智能化的特點(diǎn),因此,關(guān)聯(lián)分析的結(jié)果更加精確。
后續(xù)工作重點(diǎn)突破目標(biāo)行為的語(yǔ)義理解與描述,從更細(xì)粒度分析動(dòng)向特征的內(nèi)涵與模式。
[1] 程舒通,徐從富.關(guān)聯(lián)規(guī)則挖掘技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2009,26(9)∶3210-3213.
CHENG Shutong,XU Congfu.State-of-art on association rules mining technology[J].Application Research of Computers,2009,26(9)∶3210-3213.(in Chinese)
[2] 張沖.Apriori算法在物聯(lián)網(wǎng)(IOT)數(shù)據(jù)挖掘中的應(yīng)用[J].科技通報(bào),2014,30(11)∶162-164.
ZHANG Chong.Study of IOT data excavating based on apriori algorithm[J].Bulletin of Science and Technology,2014,30(11)∶162-164.(in Chinese)
[3] 陳莉萍,杜軍平.突發(fā)事件熱點(diǎn)話題識(shí)別系統(tǒng)及關(guān)鍵問(wèn)題研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(32)∶19-22.
CHEN Liping,DU Junping.Study on hot topics identification and key issues about emergency events[J].Com-puter Engineering and Applications,2011,47(32)∶19-22.(in Chinese)
[4] 陳天瑩,蘇智慧.基于語(yǔ)義推理的文本信息關(guān)聯(lián)關(guān)系分析技術(shù)[J].電訊技術(shù),2014,54(1)∶67-73.
CHEN Tianying,SU Zhihui.Text information relationship analysis based on semantic reasoning[J].Telecommunication Engineering,2014,54(1)∶67-73.(in Chinese)
[5] 陳天瑩.文本信息中的目標(biāo)動(dòng)向感知技術(shù)[J].電訊技術(shù),2014,54(6)∶730-734.
CHEN Tianying.Target activity awareness on text information[J].TelecommunicationEngineering,2014,54(6)∶730-734.(in Chinese)
[6] 周晶,吳軍華,陳佳,等.基于條件隨機(jī)域CRF模型的文本信息抽?。跩].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(23)∶6094-6097.
ZHOU Jing,WU Junhua,CHEN Jia,et al.Using conditional random fields model for text information extraction[J].Computer Engineering and Design,2008,29(23)∶6094-6097.(in Chinese)
[7] 王小巍,蔣玉明.決策樹ID3算法的分析與改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(9)∶3069-3076.
WANG Xiaowei,JIANG Yuming.Analysis and improvement of ID3 decision tree algorithm[J].Computer Engineering and Design,2011,32(9)∶3069-3076.(in Chinese)
[8] 章登義,歐陽(yáng)黜霏,吳文李.針對(duì)時(shí)間序列多步預(yù)測(cè)的聚類隱馬爾科夫模型[J].電子學(xué)報(bào),2014,42(12)∶2359-2364.
ZHANG Dengyi,OUYANG Chufei,WU Wenli.Clusterbased hidden Markov model in time series multi-step prediction[J].Acta Electronica Sinica,2014,42(12)∶2359 -2364.(in Chinese)
俞鴻波(1977—),男,湖北人,2005年于西北工業(yè)大學(xué)獲博士學(xué)位,現(xiàn)為高級(jí)工程師,主要研究方向?yàn)閳D像處理與信息融合。
YU Hongbo was born in Hubei Province,in 1977.He received the Ph.D.degree from Northwestern Polytechnical University in 2005. He is now a senior engineer.His research concerns image processing and information fusion.
Email∶walkeryhb@163.com
Hot Spot Analysis Based on Correlation of Target Activity Information
YU Hongbo
(Southwest China Institute of Electronic Technology,Chengdu 610036,China)
∶A target activity expression and correlation method is presented in order to extract important target activity from varying and massive sensor data.Activity factors are extracted from various information to denote target activity,then,semanticdecision tree is used to classify activity factors,correlative relationships between sensor data are established using knowledge and rules.By extraction of target activity information,it is possible to analyze hot spot or predict target activity trends by correspondent historical target activities. Experiment shows that the proposed target activity information correlation algorithm has high precision,which can be used in real data set.
∶information correlation;target activity;hot spot analysis;semantic decision tree
TN971;TP391.4
A
1001-893X(2016)05-0483-07
10.3969/j.issn.1001-893x.2016.05.003
俞鴻波.基于關(guān)聯(lián)性的目標(biāo)動(dòng)向熱點(diǎn)分析[J].電訊技術(shù),2016,56(5)∶483-489.[YU Hongbo.Hot spot analysis based on correlation of target activity information[J].Telecommunication Engineering,2016,56(5)∶483-489.]
2016-01-29;
2016-03-28Received date:2016-01-29;Revised date:2016-03-28
**通信作者:walkeryhb@163.comCorresponding author:walkeryhb@163.com