亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于相似度的裝備數(shù)據(jù)聚合方法

2023-05-06 09:46:06楊杉

空軍工程大學(xué)學(xué)報(bào) 2023年2期

楊杉

(32683部隊(duì),沈陽(yáng),110000)

信息融合和信息主導(dǎo)已成為現(xiàn)代戰(zhàn)爭(zhēng)體系作戰(zhàn)能力生成與發(fā)揮的重要機(jī)理[1],隨著裝備信息化建設(shè)的不斷深入,如何將多源異構(gòu)的裝備數(shù)據(jù)進(jìn)行有效的融合集成已經(jīng)成為不可回避的問(wèn)題[2]。裝備數(shù)據(jù)聚合的主要矛盾是異源數(shù)據(jù)裝備命名不唯一,該問(wèn)題導(dǎo)致數(shù)據(jù)匯聚后難以直接使用,后期整編、維護(hù)、管理成本巨大,亟需尋找一種行之有效的裝備名稱匹配聚合方法。當(dāng)前數(shù)據(jù)聚類、聚合的算法模型眾多,在不同應(yīng)用中效果迥異[3],但在裝備數(shù)據(jù)聚合問(wèn)題上尚無(wú)典型的研究案例和行之有效的實(shí)施方法。因此,本文針對(duì)裝備數(shù)據(jù)聚合進(jìn)行研究,根據(jù)裝備名稱的特點(diǎn)設(shè)計(jì)了裝備數(shù)據(jù)的聚合模型和聚合流程,并嘗試為該模型提供一個(gè)適用性較強(qiáng)的相似度計(jì)算方法。

1 相關(guān)背景及概念

1.1 裝備數(shù)據(jù)問(wèn)題分析

“裝備數(shù)據(jù)”沒(méi)有明確的定義,其內(nèi)涵和外延存在較多解讀,有學(xué)者將“裝備數(shù)據(jù)”定義為“用于描述裝備自身特性和狀態(tài)的數(shù)據(jù)以及裝備全系統(tǒng)全壽命管理活動(dòng)所涉及的數(shù)據(jù)的統(tǒng)稱”[4]。裝備數(shù)據(jù)涵蓋范圍寬泛,包含裝備屬性數(shù)據(jù)、裝備標(biāo)準(zhǔn)數(shù)據(jù)、裝備衍生數(shù)據(jù)、裝備數(shù)質(zhì)量數(shù)據(jù)等。作為裝備數(shù)據(jù)的主體,這些數(shù)據(jù)都含有大量的裝備名稱,由于裝備迭代更新加快、信息系統(tǒng)不相兼容、采集任務(wù)標(biāo)準(zhǔn)不一、人工采報(bào)內(nèi)容格式不規(guī)范等原因,當(dāng)前裝備數(shù)據(jù)中存在大量裝備名稱不一致的情況,這為裝備數(shù)據(jù)融合帶來(lái)了困難,使裝備數(shù)據(jù)難以形成統(tǒng)一的數(shù)據(jù)資源。

裝備名稱不一致是指同一裝備因數(shù)據(jù)來(lái)源不同存在多種命名方式的現(xiàn)象,該現(xiàn)象會(huì)嚴(yán)重影響數(shù)據(jù)質(zhì)量,導(dǎo)致融合后數(shù)據(jù)失準(zhǔn),造成數(shù)據(jù)分析偏差,甚至影響指揮決策。例如裝備A可能有A1、A2、A3等多個(gè)名稱,如果直接歸集使用,A的統(tǒng)計(jì)數(shù)量會(huì)有缺漏,A1等非標(biāo)準(zhǔn)名稱也將無(wú)法完成有效的信息關(guān)聯(lián),引發(fā)后期數(shù)據(jù)應(yīng)用結(jié)果的混亂。所以在數(shù)據(jù)融合過(guò)程中必須識(shí)別出相同型號(hào)的裝備并將其聚合。裝備名稱不一致問(wèn)題產(chǎn)生原因多、發(fā)生頻率高,情況也較為復(fù)雜,當(dāng)前主要通過(guò)人工整編的方式進(jìn)行解決,但因數(shù)據(jù)體量巨大,匹配工作效率低、容易出錯(cuò)。

1.2 數(shù)據(jù)聚合及模型選擇

數(shù)據(jù)聚合的本質(zhì)是數(shù)據(jù)匹配和對(duì)齊,是判斷隸屬2個(gè)不同數(shù)據(jù)集合中的2個(gè)實(shí)體是否屬于同一個(gè)實(shí)體的過(guò)程[5]。對(duì)裝備數(shù)據(jù)聚合而言,其核心是對(duì)裝備名稱文本數(shù)據(jù)的聚合,目標(biāo)是通過(guò)匹配對(duì)齊,消除數(shù)據(jù)的不一致性,提升數(shù)據(jù)的穩(wěn)定性和準(zhǔn)確性。為了有針對(duì)性地解決裝備數(shù)據(jù)的聚合問(wèn)題,本文對(duì)當(dāng)前的主流方法進(jìn)行了研究分析。

數(shù)據(jù)聚合研究因數(shù)據(jù)時(shí)代的到來(lái)而備受關(guān)注[6-8],當(dāng)前數(shù)據(jù)聚合的主流方法可分為3類:

1)基于概率的統(tǒng)計(jì)聚合模型。該模型是通過(guò)概率和權(quán)重的計(jì)算實(shí)現(xiàn)數(shù)據(jù)與主題詞的聚合;

2)監(jiān)督聚合模型。此模型是依托構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)數(shù)據(jù)聚合;

3)無(wú)監(jiān)督聚合模型。該模型針對(duì)數(shù)據(jù)本身進(jìn)行研究,主要通過(guò)文本相似度計(jì)算實(shí)現(xiàn)信息的聚類。

前2類模型針對(duì)的是長(zhǎng)文本的數(shù)據(jù)聚類,主要應(yīng)用于網(wǎng)絡(luò)信息的檢索,重點(diǎn)是對(duì)數(shù)據(jù)的數(shù)量和特征進(jìn)行聚合。裝備數(shù)據(jù)聚合因裝備名稱較短,難以統(tǒng)計(jì)詞頻和提取特征,統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)模型并不適用。故本文首先鎖定無(wú)監(jiān)督聚合模型作為解決方向。

無(wú)監(jiān)督聚合模型又分為“計(jì)算字符距離”和“計(jì)算語(yǔ)義相似度”2類。前者是將文本數(shù)據(jù)作為字符序列進(jìn)行量化分析,利用一些距離來(lái)衡量二者的相似度;后者一般需要依賴外部語(yǔ)義詞典進(jìn)行知識(shí)匹配來(lái)完成相似度計(jì)算[9-10]。裝備的命名主要由阿拉伯?dāng)?shù)字、英文字母、漢字及少量羅馬字母組成,構(gòu)成復(fù)雜、不易分詞且缺少專用的外部詞典;同時(shí),裝備名稱特征具有稀疏性,容易對(duì)語(yǔ)義相似度計(jì)算的準(zhǔn)確性造成較大的負(fù)面影響,所以不建議使用語(yǔ)義相似度進(jìn)行聚合。綜上所述,本文在無(wú)監(jiān)督聚合模型的基礎(chǔ)上,進(jìn)一步確定采用基于字符距離計(jì)算相似度的方法解決裝備數(shù)據(jù)聚合問(wèn)題。

2 裝備數(shù)據(jù)聚合模型及流程

2.1 裝備數(shù)據(jù)聚合模型

裝備數(shù)據(jù)聚合是指依據(jù)一定的規(guī)則將同一個(gè)裝備對(duì)象的多個(gè)名稱進(jìn)行匹配對(duì)齊,根據(jù)匹配結(jié)果對(duì)待聚合數(shù)據(jù)集進(jìn)行整合的過(guò)程。假定裝備數(shù)據(jù)集DB中的2條數(shù)據(jù)D1和D2,則D1和D2匹配可定義為:

(1)

式中:n為裝備實(shí)體名稱;Sim表示2條數(shù)據(jù)中裝備名稱的聚合相似程度,Sim值越大,n1和n2越相似?？筛鶕?jù)聚合要求設(shè)定閾值δ,如果Sim>δ,則對(duì)2條數(shù)據(jù)進(jìn)行聚合處理。

裝備名稱具有規(guī)范性,在聚合過(guò)程中應(yīng)向標(biāo)準(zhǔn)名稱看齊,規(guī)范的裝備名稱來(lái)源于裝備字典,所以如果聚合任務(wù)明確了裝備字典DD,可先將DB中的具體裝備名稱ni與DD進(jìn)行匹配,選取DD中與ni相似度最高的名稱作為匹配成功項(xiàng),記為ADDi,即Sim(Di,ADDi)=SimMax。因該匹配結(jié)果僅取最大值,本文稱其為唯一性匹配。此時(shí)聚合的匹配定義由閾值判斷轉(zhuǎn)化為唯一性判別:

(2)

2.2 裝備數(shù)據(jù)聚合流程

裝備數(shù)據(jù)聚合流程因裝備數(shù)據(jù)種類不同而略有差異,但核心思想一致,本文將裝備數(shù)據(jù)聚合流程分為3個(gè)階段:

Step1裝備名稱的提取和預(yù)處理。將裝備名稱從所有需要聚合裝備數(shù)據(jù)集中全部提取出來(lái),形成文本數(shù)據(jù)集,再對(duì)裝備名稱文本集進(jìn)行剔重和清洗等預(yù)處理,以提升聚合的質(zhì)量和效率;

Step2裝備名稱的匹配對(duì)齊。采用合適的相似度算法對(duì)裝備的名稱進(jìn)行匹配計(jì)算,如果有明確裝備字典,應(yīng)將裝備數(shù)據(jù)中的名稱嚴(yán)格與裝備字典進(jìn)行唯一性匹配,否則通過(guò)設(shè)定相似度閾值δ完成匹配對(duì)齊;

Step3裝備數(shù)據(jù)整合。裝備名稱匹配對(duì)齊后,首先應(yīng)按標(biāo)準(zhǔn)統(tǒng)一裝備名稱,使裝備名稱具備唯一性,如果在聚合任務(wù)中沒(méi)有明確的裝備字典,建議選取信息較為完整的裝備名稱作為聚類后統(tǒng)一的標(biāo)準(zhǔn)。然后根據(jù)裝備數(shù)據(jù)結(jié)構(gòu)確定組合主鍵(一般包含裝備名稱,隸屬部門,裝備狀態(tài)等),對(duì)數(shù)據(jù)進(jìn)行刪除重復(fù)項(xiàng)、整合同類數(shù)據(jù)等操作,進(jìn)而得到最終聚合后的數(shù)據(jù)集合。

整個(gè)過(guò)程如圖1所示。

圖1 裝備數(shù)據(jù)的聚合流程

分析裝備數(shù)據(jù)聚合過(guò)程可知,其核心任務(wù)是對(duì)裝備名稱的匹配對(duì)齊,所以本文研究的重點(diǎn)是匹配所需的相似度算法。

3 裝備數(shù)據(jù)聚合相似度算法設(shè)計(jì)

基于字符距離的相似度算法有較為豐富的研究成果,當(dāng)前的主流算法有歐氏距離、余弦距離[11]、最小編輯距離[12]、Jaro-Winkler距離[13]等。這些相似度算法各有特點(diǎn),沒(méi)有明顯優(yōu)劣。其中,最小編輯距離算法、余弦相似度等算法比較適合以分詞為單位的計(jì)算,Jaro-Winkler算法更適合以字符為單位的計(jì)算[14]。裝備名稱當(dāng)前缺少專用“詞袋”難以分詞,故Jaro-Winkler算法相對(duì)更適用于裝備名稱的相似度計(jì)算,但其加強(qiáng)對(duì)相同前綴評(píng)估的權(quán)重不符合裝備名稱的特點(diǎn)需求,因此本文嘗試在該算法的基礎(chǔ)上進(jìn)行改進(jìn)。

裝備型號(hào)命名一般用字母、數(shù)字和文字的組合表示該裝備的基本性能、規(guī)格和產(chǎn)品種類。分析裝備數(shù)據(jù)名稱不一致現(xiàn)象,多數(shù)是由品牌、年代、型號(hào)、計(jì)量單位的不同寫法造成的。雖然這些具體標(biāo)識(shí)不完全一致,但內(nèi)容本質(zhì)上是相同的,所構(gòu)成的裝備名稱文本也分散存在大量共有子域,例如“1954年式7.62毫米手槍”“54式手槍”和“54式7.62 mm手槍”就擁有“54”“7.62”和“手槍”等相同子字符串。據(jù)此,本文在Jaro-Winkler的基礎(chǔ)上增加對(duì)最長(zhǎng)公共子序列的度量,具體算法如下:

首先引入配窗口概念,對(duì)于字符串s1和s2,二者之間的匹配窗口記為MW(matching window):

(3)

式中:|s1|和|s2|表示2字符串的長(zhǎng)度,當(dāng)2個(gè)相同字符的距離不大于MW時(shí)認(rèn)定該2個(gè)字符是匹配的,因此通過(guò)MW可過(guò)濾掉距離相對(duì)較遠(yuǎn)的相同字符。過(guò)濾后得到新的字符串sn1和sn2,因匹配字符個(gè)數(shù)相同,將新字符串長(zhǎng)度記為m:

m=|sn1|=|sn2|

(4)

此時(shí)sn1和sn2具有相同的字符集合,但部分字符位置不同。通過(guò)交換字符的方式將sn1轉(zhuǎn)變?yōu)閟n2,將交換次數(shù)記為ts,則換位數(shù)目是發(fā)生換位次數(shù)的一半,記為t:

(5)

通過(guò)m和t可以計(jì)算得到Jaro距離dj:

(6)

Winkler在Jaro的基礎(chǔ)上,對(duì)算法進(jìn)行了補(bǔ)充,增加了對(duì)2個(gè)字符串前綴相同部分的考量,相似度算法改進(jìn)如下:

dw=dj+(lp(1-dj))

(7)

式中:p為常量,范圍為(0～0.25),根據(jù)實(shí)際情況進(jìn)行調(diào)整,默認(rèn)值通常設(shè)置為0.1;l為2個(gè)字符串的起始部分存在的相同字符個(gè)數(shù),即相同最大前綴長(zhǎng)度。

定義:對(duì)2個(gè)字符串A和B在不改變字符順序的基礎(chǔ)上進(jìn)行字符刪減操作,將得到的長(zhǎng)度最長(zhǎng)的相同字符序列定義為A和B的最長(zhǎng)公共子序列LCS(A,B),序列長(zhǎng)度(字符個(gè)數(shù))為L(zhǎng)LCS,定義A和B公共子序列相似度系數(shù)為:

(8)

由LLCS≤Min(|SA|,|SB|)可知PLCS≤1,所以可以用PLCS代替式(7)中的l和p2個(gè)變量,將Jaro-Winkler 算法改進(jìn)得到新的dAB:

dAB=dj+PLCS(1-dj)

(9)

考慮到2個(gè)系數(shù)疊加后相似度數(shù)值較大,比值結(jié)果差距較小,為了在應(yīng)用中更容易設(shè)定相似度閾值,對(duì)結(jié)果進(jìn)行差異放大處理,得到:

Sim(A,B)=2(dj+PLCS(1-dj))-1

(10)

如果Sim(A,B)<0,則認(rèn)定A和B不具備匹配條件;如果Sim(A,B)= 1,則認(rèn)定A和B相同。綜合公式(6)和(10),改進(jìn)后A和B的相似度計(jì)算公式為:

(11)

改進(jìn)后的算法與Jaro-Winkle算法相比,在規(guī)避前綴錯(cuò)誤度量的同時(shí),增強(qiáng)了對(duì)共有部分的評(píng)估的權(quán)重,更符合裝備名稱特性,理論上可以提高聚合匹配的準(zhǔn)確度。

4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文設(shè)計(jì)的算法在裝備名稱聚合上的匹配效果,實(shí)驗(yàn)分別在典型數(shù)據(jù)集和較大規(guī)模數(shù)據(jù)集中應(yīng)用了該算法,并與常用的字符距離相似度算法進(jìn)行了比對(duì)分析。

4.1 典型數(shù)據(jù)集實(shí)驗(yàn)分析

在單樣本比對(duì)實(shí)驗(yàn)中,本文盡量選取有代表性的典型情況進(jìn)行計(jì)算分析。數(shù)據(jù)集以字典中“1954年式7.62毫米手槍”為基礎(chǔ)進(jìn)行擴(kuò)展獲取,在裝備數(shù)據(jù)聚合過(guò)程中常見(jiàn)的裝備名稱不一致的情況有以下3種:

1)年代、口徑、型號(hào)等標(biāo)識(shí)簡(jiǎn)寫。擴(kuò)展數(shù)據(jù)為“①54年式7.62毫米手槍”和“②54年式7.62手槍”;

2)計(jì)量單位標(biāo)準(zhǔn)不同。擴(kuò)展數(shù)據(jù)為“③1954年式7.62 mm手槍”;

3)缺少部分前后綴標(biāo)識(shí)。擴(kuò)展數(shù)據(jù)為“④1954年式手槍”和“⑤7.62毫米手槍”。嚴(yán)格意義上缺少前后綴標(biāo)識(shí)的裝備名稱很有可能產(chǎn)生歧義,例如“7.62毫米手槍”可能存在多個(gè)年代型號(hào)與之匹配,在數(shù)據(jù)量較大時(shí),為了提升數(shù)據(jù)質(zhì)量應(yīng)修正補(bǔ)全這些數(shù)據(jù),在典型數(shù)據(jù)集中因樣本數(shù)量較少,暫不考慮名稱歧義。

以上同一裝備的不同名稱,統(tǒng)稱為該裝備的正例。在裝備名稱匹配過(guò)程中,除了正例,裝備數(shù)據(jù)往往更多的是非同一裝備的名稱反例,為了實(shí)現(xiàn)裝備名稱的自動(dòng)匹配,算法應(yīng)能夠區(qū)分正例和反例,為了全面分析算法,在典型數(shù)據(jù)集中添加2個(gè)與正例相似的反例:“⑥1959年式9毫米手槍”和“⑦1954年式12.7毫米穿甲燃燒彈”,用于測(cè)試算法的反向匹配?，F(xiàn)將7條數(shù)據(jù)分別與裝備字典中的對(duì)應(yīng)的標(biāo)準(zhǔn)名稱進(jìn)行比對(duì),應(yīng)用本文算法結(jié)果如圖2所示。

圖2 不同名稱相似度對(duì)比結(jié)果

從2個(gè)維度對(duì)圖2的實(shí)驗(yàn)結(jié)果進(jìn)行分析。維度1是匹配分析,將7個(gè)數(shù)據(jù)樣本分為3組,正例①～⑤為一組,該組數(shù)據(jù)與正例字典名稱的相似度明顯高于2個(gè)反例字典名稱,采用唯一性匹配原則,正例可以匹配到正例字典名稱;同樣⑥和⑦各為一組,與自身對(duì)應(yīng)的字典名稱相似度最高,也能夠完成正確匹配。維度2是正反例區(qū)分情況分析,比較7個(gè)樣本與正例字典名稱相似度計(jì)算結(jié)果,正例均高于反例,但反例的相似度與正例⑤和④較為接近,反觀7個(gè)樣本與2個(gè)反例字典名稱,則明顯能夠進(jìn)行正反例區(qū)分。綜合分析結(jié)果,在典型情況的數(shù)據(jù)樣本中,本文提出的算法可以實(shí)現(xiàn)將不一致的裝備名稱匹配到裝備字典中對(duì)應(yīng)的標(biāo)準(zhǔn)名稱,也能夠一定程度區(qū)分正反例,但遇到過(guò)于簡(jiǎn)單的正例和極易混淆的反例(如⑤和⑥),區(qū)分界限不明顯。

為了橫向?qū)Ρ缺疚乃惴ㄅc各主流算法,現(xiàn)采用不同算法對(duì)典型情況數(shù)據(jù)集進(jìn)行計(jì)算,實(shí)驗(yàn)結(jié)果如表1所示。

表1 6種相似度算法對(duì)比結(jié)果

對(duì)表1進(jìn)行分析,因?yàn)闅W氏距離和余弦距離主要考慮字符出現(xiàn)的頻率,所以這兩個(gè)算法對(duì)缺少標(biāo)識(shí)的情況較為敏感,正例匹配的相似度范圍大,無(wú)裝備字典聚合時(shí)相似度閾值設(shè)定較為困難,而且二者不考慮字符的位序,簡(jiǎn)化的正例和相近的反例相似度接近,容易錯(cuò)誤匹配;最小編輯距離算法對(duì)字符串的長(zhǎng)度和位序都較為敏感,正向匹配較為困難,甚至出現(xiàn)反例⑥的相似度高于正例⑤的相似度,也不符合裝備名稱聚合要求;Jaro相似度相比前3個(gè)算法較穩(wěn)定,但對(duì)連續(xù)相同字符不敏感導(dǎo)致正例相似度區(qū)間偏大,Jaro-Winkle過(guò)于看重相同前綴導(dǎo)致⑦高于⑤,也不適用與裝備名稱的聚合;綜合比較,在典型數(shù)據(jù)集中本文算法較其他算法更為穩(wěn)定,匹配準(zhǔn)確率相對(duì)較高。

4.2 較大規(guī)模數(shù)據(jù)集算法對(duì)比分析

為了驗(yàn)證本文算法的匹配準(zhǔn)確率和魯棒性,將算法應(yīng)用于較大規(guī)模的裝備數(shù)據(jù)集,數(shù)據(jù)集約30 000條裝備數(shù)據(jù),提取裝備名稱實(shí)例1 221個(gè)。為了對(duì)算法的有效性進(jìn)行分析,將匹配結(jié)果進(jìn)行二元分類,建立混淆矩陣:

True Positive(真正,TP):同一裝備且名稱符合匹配;

True Negative(真負(fù),TN):不是同一裝備且不符合匹配;

False Positive(假正,FP):不是同一裝備但符合匹配;

False Negative(假負(fù),FN):是同一裝備但不符合匹配。

通過(guò)混淆矩陣可以得到算法的準(zhǔn)確率ACC:

(12)

算法的精確率P和召回率R分別為:

(13)

其中精確率和召回率是2個(gè)不同角度對(duì)算法的分析,理想情況下,P和R同時(shí)越高越好,但現(xiàn)實(shí)情況中,準(zhǔn)確率與召回率往往呈反比,根據(jù)裝備聚合的要求應(yīng)保證盡量不錯(cuò)漏正例,實(shí)驗(yàn)的閾值確定原則為在保證召回率的前提下精確率最大化。同時(shí)為了全面分析算法的有效性,實(shí)驗(yàn)中引用更為綜合的評(píng)價(jià)指標(biāo)F-Measure[15],其定義為:

(14)

下面,針對(duì)裝備數(shù)據(jù)集中的裝備名稱實(shí)例分別采用Jaro-Winkle、最小編輯距離、余弦距離等相似度算法和本文算法進(jìn)行計(jì)算,得到的準(zhǔn)確率、精確率、召回率和F1(β=1)結(jié)果如圖3所示。

圖3 4種算法評(píng)價(jià)指標(biāo)綜合對(duì)比

1)4種算法的ACC值較為接近,主要原因是數(shù)據(jù)集中的反例遠(yuǎn)多于正例,所以ACC值參考意義不大;

2)各算法的P值都相對(duì)較低,表明符合匹配條件的反例較多,分析主要原因是部分裝備名稱相似度極高,橫向比較,本文算法的TP和FP相對(duì)較少;

3)通過(guò)對(duì)結(jié)果的綜合比較分析,本文算法的精確率、召回率、F1值相較其它3種算法都有較好的表現(xiàn)。

對(duì)匹配成功和失敗的數(shù)據(jù)樣本進(jìn)一步觀察,可以總結(jié)出3點(diǎn)規(guī)律:一是裝備名稱包含的前后綴標(biāo)識(shí)越多,本文算法的準(zhǔn)確率越高,相較其它算法優(yōu)勢(shì)越明顯;二是算法的有效性與數(shù)據(jù)質(zhì)量有較大關(guān)聯(lián)性,裝備名稱過(guò)于簡(jiǎn)單或存在歧義的數(shù)據(jù)樣本無(wú)論在那種算法中都難以匹配成功;三是文中的所有基于字符的相似度算法都是純文本分析,難以剔除極度相似的裝備名稱反例。

5 結(jié)語(yǔ)

本文在分析當(dāng)前的主流的文本聚合算法的基礎(chǔ)上,針對(duì)裝備數(shù)據(jù)的特點(diǎn),構(gòu)建了裝備數(shù)據(jù)的聚合模型并提供了相應(yīng)的相似度算法,經(jīng)過(guò)實(shí)驗(yàn)分析,該算法對(duì)裝備數(shù)據(jù)適配性較高,能夠一定程度上解決裝備名稱不一致帶來(lái)的數(shù)據(jù)聚合難題,但如果想從源頭上消除裝備名稱不一致現(xiàn)象仍需要在系統(tǒng)研發(fā)、數(shù)據(jù)采報(bào)等各個(gè)環(huán)節(jié)的工作中嚴(yán)格落實(shí)制度標(biāo)準(zhǔn),確保裝備字典的統(tǒng)一。本文是對(duì)裝備數(shù)據(jù)聚合工作的初步探索,在未來(lái)的工作中可在以下2個(gè)方面做進(jìn)一步研究:針對(duì)裝備名稱命名規(guī)范進(jìn)行分析,尋求合適的分詞方法以進(jìn)一步提升聚合效率;構(gòu)建專用的外部詞典,嘗試將字符距離相似度計(jì)算與語(yǔ)義相似計(jì)算相結(jié)合,以剔除極度相似的反例,進(jìn)一步提升匹配的精確率。