顧 晴 董永權(quán) 胡 楊
(江蘇師范大學(xué)智慧教育學(xué)院 江蘇 徐州 221116)
隨著信息技術(shù)的快速發(fā)展和信息化管理的不斷推進,數(shù)據(jù)庫中的記錄數(shù)量呈指數(shù)上升,引發(fā)了大數(shù)據(jù)環(huán)境下相似重復(fù)記錄檢測的需求,是近年來數(shù)據(jù)挖掘領(lǐng)域的研究重點。大量相似重復(fù)數(shù)據(jù)在整合時降低了數(shù)據(jù)質(zhì)量,對數(shù)據(jù)庫的利用率帶來直接影響。因此,如何高效率地檢測出相似重復(fù)記錄是數(shù)據(jù)清洗的關(guān)鍵點和提高數(shù)據(jù)質(zhì)量的首要任務(wù)。
相似重復(fù)記錄檢測是識別出多個數(shù)據(jù)庫中的同一實體,在不同研究領(lǐng)域中有多種名稱表示,如duplicate record detection、entity resolution和 record linkage等,相應(yīng)中文名稱有相似重復(fù)記錄檢測、實體識別和記錄鏈接等。Newcombe等[1]提出這個概念后,國內(nèi)外研究者在各個領(lǐng)域進行深入的研究,提出大量的檢測方法,檢測精度也不斷提升。Elmagarmid等[2]總結(jié)了當(dāng)時國外的相似重復(fù)記錄檢測技術(shù),從字符、標記、語音和數(shù)字四個方面分析相似性度量方法,從機器學(xué)習(xí)和概率推理兩類技術(shù)進行歸納,提出減少記錄比較數(shù)量和提高單記錄比較速率兩種提升相似重復(fù)記錄檢測效率的方法。自發(fā)表至今,一共被引用672次,是目前為止分析最全面、被引次數(shù)最多的相似重復(fù)記錄檢測綜述。經(jīng)過之后十多年的積累, 國內(nèi)外相似重復(fù)記錄檢測方法又涌現(xiàn)出相當(dāng)多的高水平成果,迫切需要對新的文獻加以歸納整理??紤]到簡單的文獻回顧難以客觀分析該領(lǐng)域的作者合作關(guān)系、研究熱點及發(fā)展趨勢,有必要通過文獻計量和可視化的方式進行探究。
文獻計量方法可以對海量文獻進行可視化分析,得到特定領(lǐng)域的文獻特征,能夠全面分析某一領(lǐng)域的熱點及發(fā)展趨勢[3]。社會網(wǎng)絡(luò)是指行動者 (個體、群體或組織等) 及其關(guān)系的集合[4]。社會網(wǎng)絡(luò)分析則是對這些關(guān)系數(shù)據(jù)的分析與研究。科學(xué)知識圖譜是結(jié)合文獻計量法及信息可視化原理,以科學(xué)知識為對象,展示科學(xué)知識的演進過程與結(jié)構(gòu)關(guān)系的一種圖形表示方法。
本文收集了2008—2019年間國內(nèi)外對相似重復(fù)記錄檢測的相關(guān)文獻,分析了發(fā)文量的時間分布以及發(fā)文核心機構(gòu)分布。通過社會網(wǎng)絡(luò)分析軟件Ucinet對這些論文的作者建立合作網(wǎng)絡(luò)圖譜,分析了核心作者群。使用數(shù)據(jù)可視化軟件CiteSpace對文獻關(guān)鍵詞進行聚類,并根據(jù)時間脈絡(luò)進行分析,呈現(xiàn)出近十年在相似重復(fù)記錄檢測問題的知識圖譜,并對其研究熱點和趨勢進行了探究,提出面臨的挑戰(zhàn),指明今后的研究方向。
(1) 社會網(wǎng)絡(luò)分析。社會網(wǎng)絡(luò)分析采用Ucinet(University of California at Irvine NETwork)軟件。Ucinet內(nèi)置大量的網(wǎng)絡(luò)指標計算模塊,是一款功能強大的社會網(wǎng)絡(luò)分析軟件[4]。最初由社會網(wǎng)絡(luò)研究的開創(chuàng)者Linton等網(wǎng)絡(luò)分析者編寫,之后由美國波士頓大學(xué)的Steve和英國威斯敏斯特大學(xué)的Martin共同維護。它可以生成多種可視化圖譜,反映分析對象的結(jié)構(gòu)和關(guān)系。
本文將EndNote格式的中文文獻題錄和.txt格式的外文文獻題錄分別導(dǎo)入Bicomb,通過格式轉(zhuǎn)換后分別創(chuàng)建.txt格式的作者共現(xiàn)矩陣,之后將矩陣導(dǎo)入Ucinet生成.##h文本矩陣,通過對Netdraw的調(diào)用產(chǎn)生可視化圖譜,并對社會網(wǎng)絡(luò)參數(shù)進行中心度等計算。
(2) 知識圖譜分析。知識圖譜采用CiteSpace(5.5.R2)軟件,CiteSpace是由美國德雷塞爾大學(xué)的陳超美博士開發(fā)的文獻數(shù)據(jù)可視化軟件[5]。該軟件主要運用共引分析理論對某領(lǐng)域的文獻信息進行計量,通過尋徑網(wǎng)絡(luò)算法等方法找出關(guān)鍵節(jié)點,繪制出相關(guān)的科學(xué)知識圖譜,實現(xiàn)信息可視化分析[6]。通過它展現(xiàn)的知識圖譜,可以較直觀地顯示該研究學(xué)科過往的演化歷程、當(dāng)今的研究熱點、日后的研究趨勢。迄今為止,CiteSpace被廣泛運用于對文獻的可視化分析。
本文在CiteSpace中將時間閾值設(shè)置為“2008”到“2019”, 連線閾值數(shù)據(jù)對象(Links)強度設(shè)為‘cosine’類型,節(jié)點閾值(Selection Criteria)中三個時間切片的最低被引次數(shù)(citation)、本切片內(nèi)的共引次數(shù)(cocitation)和共被引率(Cocitation cosine coefficient)分別為1、1、20;1、1、20;2、2、20。剪枝(pruning)采用尋徑網(wǎng)絡(luò)算法(Pathfinder),filter為1。主要應(yīng)用CiteSpace的聚類分析(Cluster)、文本主題共現(xiàn)(Term、Keyword),對文獻關(guān)鍵詞進行分析,進而總結(jié)出相似重復(fù)記錄檢測的研究熱點及發(fā)展趨勢。
本文采集2008—2019年國內(nèi)外有關(guān)相似重復(fù)記錄檢測的相關(guān)文獻進行統(tǒng)計分析。采用的外文文獻來源于World of Science(WOS)的核心數(shù)據(jù)庫,以“duplicate record”“entity resolution”“record linkage”“ record ma-tching”“entity matching”和“record merge”為標題分別進行檢索。中文文獻來源于中國知網(wǎng)(CNKI),以“重復(fù)記錄”“記錄匹配”“實體匹配”“記錄鏈接”和“記錄合并”為篇名分別進行檢索。經(jīng)過相關(guān)內(nèi)容篩選后共獲得153條有效國外文獻記錄和149條有效國內(nèi)文獻記錄。
文獻的發(fā)表數(shù)量及其在時間上的分布,可以反映出該研究內(nèi)容在研究歷史上的被關(guān)注程度以及發(fā)展情況。將國內(nèi)外關(guān)于相似重復(fù)記錄檢測的文獻按照年份繪成發(fā)文量年度分布圖(見圖1)。
圖1 國內(nèi)外文獻發(fā)文量年度分布
相似重復(fù)記錄檢測最早起源于國外,從每年度文獻發(fā)表的數(shù)量上來看,近10年內(nèi)國內(nèi)外相關(guān)的文獻發(fā)表量總體上逐步上升,這表明近10年國內(nèi)外在相似重復(fù)記錄檢測研究上的關(guān)注度呈增長趨勢。從圖1可以看出,2008年到2012年,國外研究經(jīng)歷了一個低潮期,發(fā)文量較少。隨著相似重復(fù)記錄檢測應(yīng)用領(lǐng)域的擴大和檢測技術(shù)的發(fā)展,自2012年起發(fā)文量開始逐步增長,2018年高達27篇文獻。國內(nèi)近10年一直持續(xù)著對相似重復(fù)記錄檢測的研究熱情,發(fā)文量整體上波動幅度不大,每年穩(wěn)定在15篇左右。2015年和2016年出現(xiàn)一個明顯的低潮期,但從2017年起,由于深度學(xué)習(xí)等技術(shù)被重新關(guān)注研究和發(fā)展,以及其在自然語言處理領(lǐng)域的應(yīng)用,相似重復(fù)記錄檢測這一研究又吸引了眾多學(xué)者的目光,發(fā)文量呈現(xiàn)穩(wěn)步回升。從整體數(shù)量上看,國內(nèi)外文獻近10年文獻發(fā)表量相差不大,但是自2015年起國外文獻數(shù)量均高于國內(nèi)文獻數(shù)量。
通過對發(fā)文作者所在機構(gòu)的統(tǒng)計,可以了解相似重復(fù)記錄檢測領(lǐng)域研究的核心機構(gòu)。根據(jù)World of Science和CNKI的文獻分析,獲得相似重復(fù)記錄檢測文獻發(fā)文量排名前五的國內(nèi)外高產(chǎn)機構(gòu)如表1和表2所示。
表1 國外文獻高產(chǎn)機構(gòu)
表2 國內(nèi)文獻高產(chǎn)機構(gòu)
2008年以來,發(fā)文量并列排名第一的研究機構(gòu)是澳大利亞國立大學(xué)(Australian National University)、谷歌公司(Google Incorporated)和哈爾濱工業(yè)大學(xué)(Harbin Institute of Technolog)。澳大利亞國立大學(xué)偏向于隱私保護的相似重復(fù)記錄檢測技術(shù),通過分析各種不泄露隱私信息的方式進行相似重復(fù)記錄檢測[7]。谷歌公司發(fā)表的8篇文獻中有6篇與斯坦福大學(xué)(Stanford University)合作,總被引用次數(shù)為341次,提出基于否定規(guī)則、web、多個數(shù)據(jù)集和主動抽樣等一系列通用實體識別模型。哈爾濱工業(yè)大學(xué)在外文期刊上同樣發(fā)表了8篇文獻。希臘開放大學(xué)(Hellenic Open University)共發(fā)表6篇文獻。
國內(nèi)在相似重復(fù)記錄檢測方面發(fā)表文獻最多的是東北大學(xué),發(fā)表數(shù)量達18篇,對關(guān)系數(shù)據(jù)對象識別、復(fù)雜數(shù)據(jù)空間中的數(shù)據(jù)對象識別、具有時間特性的數(shù)據(jù)對象識別、隱私保護下數(shù)據(jù)對象識別和Deep Web環(huán)境下的實體識別研究等方面進行了深入研究。哈爾濱工業(yè)大學(xué)在國內(nèi)期刊上發(fā)表了15篇文獻,總產(chǎn)量屬于國內(nèi)外第一位。高紅、李建中、李玲麗和王洪志等相繼做了記錄匹配的動態(tài)約束、基于規(guī)則的實體解析方法等相關(guān)研究。
White博士[8]認為,作者共現(xiàn)頻率越高,則作者在這一研究領(lǐng)域的學(xué)術(shù)相關(guān)性越強。因此,通過圖譜和網(wǎng)絡(luò)結(jié)構(gòu)分析,可以了解相似重復(fù)記錄檢測領(lǐng)域的核心作者群。為了更明顯地展示出主要合作團隊,將閾值設(shè)為2,使用Bicomb生成作者共現(xiàn)矩陣。共現(xiàn)矩陣導(dǎo)入Ucinet社會網(wǎng)絡(luò)分析軟件,生成.##h文件,再進一步借助Netdraw,經(jīng)過中心性度計算,去掉沒有合作的單節(jié)點,生成作者共現(xiàn)社會網(wǎng)絡(luò)圖譜(見圖2和圖3)。
圖2 國外文獻作者合作社會網(wǎng)絡(luò)圖譜
圖3 國內(nèi)文獻作者合作社會網(wǎng)絡(luò)圖譜
根據(jù)Ucinet統(tǒng)計以及圖2和圖3中的信息,在發(fā)表兩篇及以上的作者中有合作關(guān)系的外文文獻作者共57位,中文文獻作者共24位,國外形成合作團體共16個,國內(nèi)共6個,無論是作者數(shù)量還是合作團隊數(shù)量都明顯多于國內(nèi)。網(wǎng)絡(luò)密度的數(shù)值越大則表示網(wǎng)絡(luò)中成員聯(lián)系越緊密,國外文獻作者合作網(wǎng)絡(luò)的密度為0.071 6,國內(nèi)為0.284, 國外研究學(xué)者主要是多個小團體的合作,總體合作情況要優(yōu)于國內(nèi),而國內(nèi)除了幾個大團體的合作,其他作者之間的合作關(guān)系不明顯。整體上看,國內(nèi)外的作者合作結(jié)構(gòu)都比較松散,作者之間聯(lián)系不多。
根據(jù)發(fā)文量排名前十的作者 (見表3),并結(jié)合圖2、圖3的信息可以得出,發(fā)文量高的作者擅長團隊合作,因此可以從團隊角度分析其研究內(nèi)容。
表3 作者發(fā)文篇數(shù)前十位
國外文獻作者影響力較大的有四個合作團隊。第一個是科廷大學(xué)(Curtin University) 的Ferrante、Randall、Semmens和Boyd等組成的團隊, 在2016年和2017年互相合作4篇文獻,主要研究在大型醫(yī)療數(shù)據(jù)集上,確保隱私的相似重復(fù)記錄檢測方法。提出的PPRL(Privacy-Preserving Record Linkage)模型,在不影響隱私和質(zhì)量的情況下擴展了記錄鏈接[9]。第二個是雅典大學(xué)(University of Athens)的Palpanas 、 Papadakis和George等組成的團隊, 從2013年起共合作4篇文獻,注重研究分塊技術(shù),希望通過元分塊對生成的塊進行重組以提高精度。第三個是哈爾濱工業(yè)大學(xué)的李建中、高宏和王宏志等組成的團隊,共合作發(fā)表5篇外文文獻,同時,這個團隊在國內(nèi)期刊上也合作發(fā)表5篇文獻。研究主題包括基于規(guī)則的實體識別、異構(gòu)數(shù)據(jù)庫中的實體識別、基于Map-Reduce的大數(shù)據(jù)實體識別、基于二分圖的最優(yōu)匹配的記錄相似度計算、基于并行機群的大數(shù)據(jù)實體識別等。研究范圍十分廣泛,可以看出這個團隊在國內(nèi)外相似重復(fù)記錄檢測領(lǐng)域都具有影響力。第四個是斯坦福大學(xué)(Stanford University)的Garcia-Molina 和Whang等組成的團隊,共發(fā)表4篇合作文獻。結(jié)合無監(jiān)督學(xué)習(xí)中的聚類,研究基于規(guī)則的相似重復(fù)記錄檢測技術(shù)。高產(chǎn)作者中,Verykios、Vassilios和Christen也產(chǎn)生過合作關(guān)系,但是合作頻次不大,僅有兩篇合作文獻。
國內(nèi)文獻作者合作中除哈爾濱工業(yè)大學(xué)的團隊外,還有一個來自東北大學(xué)的申德榮、聶鐵錚、寇月、于戈、孫琛琛、韓姝敏和楊丹組成的團隊,2008年至今,圍繞Deep Web、機器學(xué)習(xí)、異構(gòu)網(wǎng)絡(luò)、隱私保護幾個主題,共發(fā)表13篇相關(guān)文獻。其中,寇月、申德榮等發(fā)表的《一種基于語義及統(tǒng)計分析的Deep Web實體識別機制》是2008年起國內(nèi)的第一篇有關(guān)相似重復(fù)記錄檢測的文獻,被引用次數(shù)高達72次。該文獻針對Deep Web數(shù)據(jù)集成中的實體識別問題進行了深入的研究, 提出一種基于語義及統(tǒng)計分析的實體識別機制, 能夠有效解決Deep Web數(shù)據(jù)集成中的數(shù)據(jù)消重及表象整合等問題[10]。除了這兩個團隊,還有郭文龍和殷秀葉兩人,更擅長獨立探索,分別對異構(gòu)數(shù)據(jù)庫和大數(shù)據(jù)環(huán)境下的相似重復(fù)記錄檢測技術(shù)有一定的研究。
關(guān)鍵詞是學(xué)術(shù)論文研究內(nèi)容的高度概括,它的關(guān)聯(lián)性在一定程度上可以體現(xiàn)出學(xué)科領(lǐng)域中的研究熱點[11]。為了保證分析的全面性, 本次圖譜構(gòu)建沒有限制主題詞來源,將主題詞類型設(shè)置為名詞短語(noun phrases)及突現(xiàn)詞(burst terms), 節(jié)點類型設(shè)置為關(guān)鍵詞(keyword),得出國內(nèi)外文獻關(guān)鍵詞共現(xiàn)圖譜。之后在其基礎(chǔ)上進行聚類,并使用對數(shù)似然率算法(LLR)抽取關(guān)鍵詞對每個聚類進行自動標識,由此得到國內(nèi)外相似重復(fù)記錄檢測研究的關(guān)鍵詞聚類如圖4和圖5所示。模塊值(ModularityQ)和平均輪廓值(Mean Silhouette)是反映聚類邊界清晰度和聚類規(guī)模的兩個指標。國外文獻關(guān)鍵詞共現(xiàn)圖譜共有511個節(jié)點,1 394條連線, 網(wǎng)絡(luò)密度為0.010 7,Q值為0.847 3(>0.3),Mean Silhouette值為0.543 8(>0.4); 國內(nèi)文獻關(guān)鍵詞共現(xiàn)圖譜共有371個節(jié)點, 760條連線, 網(wǎng)絡(luò)密度為0.011 1,Q值為0.875 6(>0.3), Mean Silhouette值為0.932 4(>0.4), 這表明該共現(xiàn)圖譜聚類結(jié)構(gòu)顯著, 各聚類同質(zhì)性較好。對聚類結(jié)果進行統(tǒng)計后,得到國內(nèi)外頻數(shù)前十的關(guān)鍵詞匯如表4所示。
圖4 國外文獻關(guān)鍵詞聚類圖譜
圖5 國內(nèi)文獻關(guān)鍵詞聚類圖譜
表4 國內(nèi)外高頻關(guān)鍵詞
由圖4可知外文文獻包括13個主要聚類,分別是實體匹配(聚類#0 entity matching)、元分塊(聚類#1 meta-blocking)、重復(fù)數(shù)據(jù)刪除(聚類#2 deduplication)、醫(yī)療記錄聯(lián)動(聚類#3 medical record linkage)、關(guān)聯(lián)數(shù)據(jù)(聚類#4 linked data)、數(shù)據(jù)清洗(聚類#5 data cleaning)、近似串匹配(聚類#6 approximate string matching)、重復(fù)捕獲(聚類#7 capture-recapture)、fellegi-sunter模型(聚類#8 fellegi-sunter model)、數(shù)據(jù)庫管理系統(tǒng)(聚類#9 database management system)、數(shù)據(jù)鏈接(聚類#10 data linkage)、知識表示(聚類#14knowledge representation)、不確定屬性(聚類#28 uncertain attribute)。由圖5可知中文文獻包括13個主要聚類,分別是實體識別(聚類#0)、實體匹配(聚類#1)、重復(fù)記錄(聚類#2)、智能檢測(聚類#3)、deep web(聚類#4)、數(shù)據(jù)質(zhì)量(聚類#5)、信息集成(聚類#6)、大數(shù)據(jù)(聚類#8)、記錄匹配(聚類#9)、編輯距離(聚類#10)、重復(fù)記錄識別(聚類#11)、SNM(sorted-neighborhood method,基本鄰近排序)算法(聚類#12)、mapreduce(聚類#13)。國內(nèi)外的主要聚類出現(xiàn)實體匹配、數(shù)據(jù)清洗、數(shù)據(jù)質(zhì)量等類似聚類,具有高度的相似性,總體說明在相似重復(fù)記錄檢測的研究主題上國內(nèi)外的關(guān)注點是基本一致的。但是國外文獻在醫(yī)療數(shù)據(jù)鏈接上產(chǎn)生較大聚類,顯示出國外研究學(xué)者將相似重復(fù)記錄檢測應(yīng)用在醫(yī)療數(shù)據(jù)中的程度較高,而國內(nèi)文獻大多將其運用在智能檢測中。同時國內(nèi)文獻關(guān)于Deep Web和大數(shù)據(jù)形成兩個較大的主要聚類,表明在2008年以來,國內(nèi)對于有關(guān)deep web以及大數(shù)據(jù)的相似重復(fù)記錄研究關(guān)注度要高于國外。
從表3中可以看出國內(nèi)外相似重復(fù)記錄檢測研究的熱點關(guān)鍵詞主要可以分為兩類。一類是應(yīng)用環(huán)境與領(lǐng)域類,包括相似重復(fù)記錄、實體識別、數(shù)據(jù)清洗、多源異構(gòu)數(shù)據(jù)、大數(shù)據(jù)、deep web、數(shù)據(jù)質(zhì)量、數(shù)據(jù)集成、隱私和醫(yī)療記錄鏈接。另一類屬于檢測方法類,包括知識庫、SNM算法、神經(jīng)網(wǎng)絡(luò)、聚類、分塊和算法。
SNM算法和CURE算法屬于相似重復(fù)記錄檢測中兩種比較主流的算法,近幾年,有較多學(xué)者對這兩種基本算法進行了改進。SNM算法最早由Hemandez等提出。針對其在數(shù)據(jù)量過大時,傳統(tǒng)排序需要大量的時間和空間的缺點,郭文龍[12]提出一種基于長度過濾和有效權(quán)值的SNM改進算法,將不可能構(gòu)成相似重復(fù)記錄的數(shù)據(jù)排除在外,減少記錄比較的次數(shù),提高檢測效率。Wang等[13]提出將SNM和迭代相結(jié)合的機制(SIER),兼顧了檢測效率與準確率。之后劉雅思等[14]針對屬性值缺失時容易造成誤判的情況,提出基于長度過濾和動態(tài)容錯的改進基本鄰近排序(SNM based on length filtering and dynamic fault-tolerance,LF-SNM)算法,根據(jù)記錄其他字段的相似度情況,動態(tài)調(diào)整記錄中屬性缺失字段的相似度結(jié)果,提高檢測精度。CURE算法對相似重復(fù)記錄進行分層聚類,可以針對任意分布、類型的數(shù)據(jù)進行聚類,效率較快,因此被人們廣泛地應(yīng)用。王民等[15]針對CURE算法在隨機抽樣階段存在的隨機性問題,采用Binary-Positive算法進行改進,以獲取數(shù)據(jù)集中更有用的樣例進行層次聚類。伍恒等[16]在CURE算法的基礎(chǔ)上引入了信息熵,利用信息熵計算樣本的相似度,根據(jù)樣本間的相似度量與不同簇之間的關(guān)系,將數(shù)據(jù)集分為高低兩個階段,對不同階段的樣本采用不同的選取策略。孫元元等[17]提出一種新的原型選擇算法PSCURE(improved prototype selection algorithm based on CURE algorithm),針對CURE噪聲點不易確定及代表點分散性差的特點,利用共享鄰居密度度量的去噪方法和最大最小距離選取代表點方法進行改進,獲得較高的檢測準確率。
國內(nèi)外研究學(xué)者在相似重復(fù)記錄檢測的應(yīng)用領(lǐng)域及技術(shù)提升上有很高的關(guān)注度,提出了種類繁多的檢測算法,應(yīng)用范圍也越來越廣。根據(jù)有關(guān)國內(nèi)外關(guān)鍵詞知識圖譜以及關(guān)鍵詞聚類匯總結(jié)果表的分析可以得出結(jié)論,相似重復(fù)記錄檢測一直是數(shù)據(jù)清洗領(lǐng)域的熱門話題,大量的國內(nèi)外研究學(xué)者不斷在擴展相似重復(fù)記錄檢測的應(yīng)用領(lǐng)域、調(diào)整檢測相似重復(fù)記錄的角度、優(yōu)化相似重復(fù)記錄檢測的算法、尋求更加高效的相似重復(fù)記錄檢測方案,提升檢測效果。
時區(qū)演化圖譜能夠直觀地反映研究領(lǐng)域文獻的更新和關(guān)聯(lián)程度,從而反映出研究的演進趨勢和特點,以此預(yù)測未來研究的發(fā)展方向[5]。Citespace的時區(qū)演化圖譜根據(jù)產(chǎn)生年份,使用節(jié)點大小和線條色彩來繪制研究熱點發(fā)展全貌,可以清晰表征研究熱點的發(fā)展軌跡。利用Citespace對國內(nèi)文獻和國外文獻的關(guān)鍵詞進行timezone操作,生成時區(qū)演化圖譜,并且標記出每個年度的重點關(guān)鍵詞 (見圖6和圖7)。各研究熱點顏色差異表征該熱點詞首次出現(xiàn)的時間差異,由深到淺、由紫向黃的分布代表出現(xiàn)時間從先到后,呈現(xiàn)出相似重復(fù)記錄檢測領(lǐng)域研究主題的變遷。這兩幅圖側(cè)重于在時間維度上表示研究熱點的變化,能夠更好地表達出研究主題的發(fā)展趨勢。
圖6 國外文獻的關(guān)鍵詞時區(qū)演化圖譜
圖7 國內(nèi)文獻的關(guān)鍵詞時區(qū)演化圖譜
2008年以來,國內(nèi)外對相似重復(fù)記錄檢測技術(shù)的研究主要分為三個階段。
第一個階段處于2010年之前,國內(nèi)外研究方向集中在對相似重復(fù)記錄檢測的不同應(yīng)用領(lǐng)域的探索。在異構(gòu)數(shù)據(jù)庫上,Efthymiou等[18]提出一種并行執(zhí)行方法,減少在異構(gòu)數(shù)據(jù)上的數(shù)據(jù)交換消耗。在人口普查上,國外將相似重復(fù)記錄檢測應(yīng)用于人口普查中,解決大規(guī)模人口普查問題,有效地對人口數(shù)據(jù)進行了數(shù)據(jù)清洗,提高了數(shù)據(jù)質(zhì)量。在隱私保護上,國外掀起了在缺少值的情況下對隱私保護記錄鏈接的研究[19]。國內(nèi)在保持數(shù)據(jù)間相對距離的基礎(chǔ)上進行記錄鏈接,在保證鏈接效果的同時實現(xiàn)隱私保護。此外,韓普等[20]以多源大數(shù)據(jù)為數(shù)據(jù)源,建立出面向醫(yī)療領(lǐng)域?qū)嶓w識別知識圖譜框架。
第二個階段由2010年到2017年,研究方向集中在對相似重復(fù)記錄檢測方法的研究。機器學(xué)習(xí)方法研究熱度久居不下,在監(jiān)督學(xué)習(xí)中,支持向量機由于在相似重復(fù)記錄識別上的良好表現(xiàn),被國內(nèi)外學(xué)者重點研究;在無監(jiān)督學(xué)習(xí)中,孫琛琛等[21]就面向?qū)嶓w識別設(shè)計出一種聚類算法,來彌補匹配問題的缺失。由于2010年Hinton在Nature上發(fā)表的深度學(xué)習(xí)論文,研究學(xué)者也開始結(jié)合其他研究方法,將深度學(xué)習(xí)應(yīng)用到相似重復(fù)記錄識別領(lǐng)域。徐紅艷等[22]針對Deep Web提出一種基于BP神經(jīng)網(wǎng)絡(luò)實體識別方法,該方法在提高實體識別的效率和準確率的同時能夠減少實體識別中的人工干預(yù)。吳慶輝等[23]結(jié)合神經(jīng)網(wǎng)絡(luò)的非線性映射以及遺傳算法的優(yōu)化特性,獲得了更佳的模型參數(shù)來解決大數(shù)據(jù)量情況下的相似重復(fù)記錄檢測問題。陳芬[24]提出的量子粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)模型,大幅度減少相似重復(fù)記錄檢測時間,在數(shù)據(jù)整合方面有了很大的進步。除此之外,用于解決大數(shù)據(jù)量的相似重復(fù)記錄檢測問題的分塊技術(shù)也有進一步發(fā)展。Papadakis等[25]通過分塊擴展到大型數(shù)據(jù)集合。佟丹妮等[26]利用局部敏感哈希結(jié)合后綴分塊的二次分塊方法,設(shè)計適用于大型數(shù)據(jù)的基于安全多方計算的匹配算法。同一時段,國外在眾包上做了深度探索,用人群的智慧和力量來提高實體解析的效率和質(zhì)量,Chai等[27]搭建出具有成本效益的眾包實體解決方案框架,在保證質(zhì)量的前提下,將成本降低至現(xiàn)有方法的1.25%。國內(nèi)也開始考慮到維度的增加會提升識別的難度,使用R-樹構(gòu)建索引保留記錄的高維特性,避免了高維數(shù)據(jù)稀疏性的影響。
第三個階段是2018年至今,國外開始更注重自動數(shù)據(jù)處理,以此減少人類的工作量,并且將關(guān)注點移動至特征選擇,借助更典型的特征提升檢測精度。國內(nèi)在更多類型的數(shù)據(jù)上開始進行相似重復(fù)記錄識別研究,包括工業(yè)大數(shù)據(jù)、文本大數(shù)據(jù)等。為了提升深度學(xué)習(xí)的學(xué)習(xí)速率,國外開始使用多GPU進行計算,Boratto等同時利用多核和多GPU架構(gòu)來執(zhí)行數(shù)據(jù)庫的概率鏈接,同時提高了精度和性能[28]。國內(nèi)更注重安全實體識別以及在大規(guī)模記錄上的相似重復(fù)記錄識別,并且在神經(jīng)網(wǎng)絡(luò)中添加了自注意力機制。
如今信息系統(tǒng)中數(shù)據(jù)量成指數(shù)增長,對相似重復(fù)記錄檢測方法要求的穩(wěn)定性、準確性及檢測速度提出巨大的挑戰(zhàn),國內(nèi)外學(xué)者開始尋求各種檢測方法的集成,希望能夠借助各種方法的優(yōu)勢,達到更好的效果。
相似重復(fù)記錄檢測目前面臨的挑戰(zhàn)可以總結(jié)為3點。(1) 對數(shù)據(jù)缺失值的處理,數(shù)據(jù)缺失會對相似重復(fù)記錄的檢測制造出困難,需要根據(jù)具體數(shù)據(jù)的缺失類型,調(diào)整現(xiàn)有的相似度算法等。(2) 對多數(shù)據(jù)源的識別,在實際應(yīng)用中,來自多個數(shù)據(jù)源的相同記錄由于組織結(jié)構(gòu)、格式等的不同導(dǎo)致表示形式差異較大,提升檢測難度。(3) 分布式實體識別,在當(dāng)今大數(shù)據(jù)時代,面向高級別數(shù)據(jù)量的相似重復(fù)記錄檢測一直是研究學(xué)者關(guān)注的熱點,如何設(shè)計有效的分塊技術(shù),解決在大數(shù)據(jù)量環(huán)境下碰到的數(shù)據(jù)分布不均的問題也是相似重復(fù)記錄檢測如今面臨的挑戰(zhàn)之一。
本文運用可視化信息分析軟件CiteSpace和社會網(wǎng)絡(luò)分析軟件Ucinet,結(jié)合World of Science和CNKI的數(shù)據(jù)分析,呈現(xiàn)了2008年以來在相似重復(fù)記錄檢測領(lǐng)域國內(nèi)外相關(guān)文獻的關(guān)鍵詞演化圖譜和作者合作網(wǎng)絡(luò),主要分析了相似重復(fù)記錄檢測領(lǐng)域文獻發(fā)文量的年度分布、發(fā)文核心機構(gòu)、作者合作群、研究熱點和研究趨勢,為今后探索相似重復(fù)記錄檢測方法提供了文獻參考及研究方向。