熊中敏,馬海宇,李 帥,張 娜
1.上海海洋大學(xué) 信息學(xué)院,上海201306
2.成都理工大學(xué) 旅游與城鄉(xiāng)規(guī)劃學(xué)院,成都 610059
廣袤的海洋占據(jù)了地球表面近70%的區(qū)域,孕育了海量的生物、礦物資源以及能源等。近年來(lái),由于陸地資源的開(kāi)采與消耗日趨飽和,國(guó)家對(duì)海洋資源、數(shù)據(jù)的重視程度進(jìn)一步提升,提出了堅(jiān)持陸海統(tǒng)籌,發(fā)展海洋經(jīng)濟(jì),建設(shè)海洋強(qiáng)國(guó)的迫切要求[1]。加之隨著人工智能等技術(shù)的興起,一方面推動(dòng)海洋領(lǐng)域的數(shù)據(jù)與海洋領(lǐng)域知識(shí)海量發(fā)展的同時(shí),也極大推進(jìn)了海洋領(lǐng)域科學(xué)研究的發(fā)展。當(dāng)前海洋領(lǐng)域研究方向繁多,海洋經(jīng)濟(jì)、海洋遙感、海洋工程等數(shù)不勝數(shù),這些條目之間不僅存在著深層次的聯(lián)系,而且其內(nèi)還存在著大量的冗余數(shù)據(jù)和尚待開(kāi)發(fā)的知識(shí)文本。如何高效地利用數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性與知識(shí)間的關(guān)聯(lián)性實(shí)現(xiàn)信息檢索和信息推理,是當(dāng)前海洋數(shù)據(jù)研究與處理的瓶頸之一。
知識(shí)圖譜(knowledge graph,KG)最早由語(yǔ)義網(wǎng)絡(luò)發(fā)展而來(lái)[2],實(shí)質(zhì)上是一個(gè)涵蓋圖結(jié)構(gòu)的知識(shí)庫(kù),這種存儲(chǔ)結(jié)構(gòu)就使得知識(shí)圖譜能有效存儲(chǔ)基于數(shù)據(jù)與知識(shí)間的關(guān)聯(lián)關(guān)系。圖譜中的節(jié)點(diǎn)用以表示實(shí)體或者概念,邊用以表示實(shí)體間或者概念間的語(yǔ)義關(guān)系,通過(guò)將各類數(shù)據(jù)和連接關(guān)系以節(jié)點(diǎn)、邊的形式聚合成知識(shí),使得知識(shí)圖譜可以通過(guò)相關(guān)的圖匹配算法來(lái)實(shí)現(xiàn)高效的數(shù)據(jù)以及領(lǐng)域知識(shí)的檢索[3]。知識(shí)圖譜的另外一個(gè)優(yōu)點(diǎn)是具備推理能力[4],可以智能地從現(xiàn)有知識(shí)挖掘出多方面的隱含知識(shí)。也正得益于知識(shí)圖譜對(duì)現(xiàn)實(shí)世界中知識(shí)的高效組織與整理,促進(jìn)了人與機(jī)器的有效溝通,因此已廣泛應(yīng)用于搜索引擎領(lǐng)域、金融領(lǐng)域[5]、教育領(lǐng)域[6]、農(nóng)業(yè)領(lǐng)域等[7]。由于知識(shí)圖譜可以通過(guò)實(shí)體間關(guān)系的挖掘找到實(shí)體之間更為深層次的聯(lián)系,應(yīng)用于海洋領(lǐng)域不僅可以通過(guò)相關(guān)軟件可視化分析來(lái)明確領(lǐng)域研究的當(dāng)前熱點(diǎn)、為未來(lái)研究方向的推理提供強(qiáng)有力的數(shù)據(jù)支撐,還可以通過(guò)構(gòu)建海洋特點(diǎn)領(lǐng)域的知識(shí)圖譜來(lái)打破不同場(chǎng)景之間的數(shù)據(jù)隔閡,為海洋數(shù)據(jù)面向應(yīng)用提供助力。
雖然當(dāng)前知識(shí)圖譜相關(guān)的技術(shù)和理論在飛速進(jìn)步,但當(dāng)前海洋領(lǐng)域與知識(shí)圖譜技術(shù)的結(jié)合還不夠深入,無(wú)法有效利用相關(guān)技術(shù)實(shí)現(xiàn)對(duì)海洋領(lǐng)域知識(shí)的進(jìn)一步獲取,且知識(shí)圖譜在近幾年才在海洋領(lǐng)域有了比較大規(guī)模的研究,針對(duì)知識(shí)圖譜在海洋領(lǐng)域的應(yīng)用過(guò)程所帶來(lái)的優(yōu)勢(shì)還不明顯。另外針對(duì)海洋領(lǐng)域,知識(shí)圖譜的應(yīng)用場(chǎng)景模糊,當(dāng)前涉足海洋領(lǐng)域的專業(yè)人員無(wú)法深入利用知識(shí)圖譜。針對(duì)以上出現(xiàn)的問(wèn)題,本文總結(jié)了應(yīng)用于海洋領(lǐng)域的知識(shí)圖譜相關(guān)技術(shù)的研究進(jìn)展以及落地實(shí)例,為以后海洋領(lǐng)域中采用知識(shí)圖譜技術(shù)提供理論支撐以及技術(shù)參考。
知識(shí)圖譜這一概念自提出以來(lái),涌現(xiàn)了大批學(xué)者利用知識(shí)圖譜出色的關(guān)聯(lián)性表達(dá)能力實(shí)現(xiàn)相關(guān)領(lǐng)域文獻(xiàn)的可視化分析[8]。如圖1中利用海洋領(lǐng)域的相關(guān)文獻(xiàn),通過(guò)關(guān)鍵詞聚類的方法繪制出海洋領(lǐng)域一段時(shí)期內(nèi)的研究熱點(diǎn)與重心,可以把握當(dāng)前研究態(tài)勢(shì),緊跟國(guó)際研究熱潮。伴隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)量的上升也催生了相當(dāng)數(shù)量的知識(shí)庫(kù),例如DBpedia、Freebase、Wikidata等。但以上知識(shí)庫(kù)均存儲(chǔ)的是通用領(lǐng)域知識(shí),目前仍然缺乏針對(duì)海洋領(lǐng)域的知識(shí)圖譜型知識(shí)庫(kù)。
圖1 海洋領(lǐng)域文獻(xiàn)關(guān)鍵詞可視化圖譜Fig.1 Visual map of keywords in marine literature
當(dāng)前階段,針對(duì)國(guó)內(nèi)海洋領(lǐng)域所采用的知識(shí)圖譜技術(shù)尚未出現(xiàn)統(tǒng)一的梳理,本文將當(dāng)前應(yīng)用于海洋領(lǐng)域內(nèi)的知識(shí)圖譜技術(shù)主要分為以下兩個(gè)方面:(1)以大量文獻(xiàn)的統(tǒng)計(jì)分析為主,利用構(gòu)建領(lǐng)域相關(guān)分析目標(biāo)的節(jié)點(diǎn)鏈接圖為輔,實(shí)現(xiàn)相關(guān)領(lǐng)域研究的針對(duì)性梳理,用于確定當(dāng)前的研究熱點(diǎn),進(jìn)而推理出未來(lái)的研究方向。(2)通過(guò)知識(shí)抽取、知識(shí)融合、知識(shí)計(jì)算和知識(shí)應(yīng)用等關(guān)鍵方法來(lái)構(gòu)建海洋領(lǐng)域的垂直知識(shí)圖譜,實(shí)現(xiàn)對(duì)目標(biāo)的相關(guān)知識(shí)數(shù)據(jù)的快速檢索。
2012年,谷歌將知識(shí)圖譜這一概念引入學(xué)術(shù)界[9],利用多源數(shù)據(jù)增強(qiáng)搜索引擎的匹配精準(zhǔn)度。相較于傳統(tǒng)的詞匹配搜索引擎,基于知識(shí)圖譜的搜索引擎能夠從用戶的搜索關(guān)鍵詞進(jìn)行關(guān)聯(lián)分析,準(zhǔn)確且清晰反饋給用戶問(wèn)題結(jié)果。如圖2所示,利用基于知識(shí)圖譜搜索引擎Magi(https://magi.com)搜索關(guān)于“海洋”的信息,可以清楚看到,搜索完畢后顯示的界面不僅包含了與海洋有關(guān)的頁(yè)面鏈接,還在知識(shí)圖譜的輔助下將海洋相關(guān)描述、標(biāo)簽一一對(duì)應(yīng)到網(wǎng)址中。用戶可以依此信息快速跳轉(zhuǎn)到自己的搜索目標(biāo)。這種方式極大地提升了人們的查詢效果,也進(jìn)一步催生了知識(shí)圖譜的廣泛應(yīng)用。
圖2 基于知識(shí)圖譜引擎的搜索Fig.2 Search based on knowledge graph engine
面對(duì)浩如煙海的文獻(xiàn)數(shù)據(jù),對(duì)于科研工作者來(lái)說(shuō),最為關(guān)鍵的是如何高效、準(zhǔn)確地獲取有用信息。利用這些信息可以清楚研究方向的發(fā)展歷程,分析出國(guó)家或區(qū)域間最為前沿的研究方向以及關(guān)注研究的發(fā)展趨勢(shì)。文獻(xiàn)計(jì)量工具正是基于這些方面,能夠有利地幫助研究人員對(duì)文獻(xiàn)進(jìn)行快速且準(zhǔn)確的分析。本文以六種代表性的輔助工具名稱為關(guān)鍵字在CNKI中進(jìn)行搜索,從中提取了8 295篇文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析。在不考慮同時(shí)使用多種輔助工具的條件下,得出各項(xiàng)輔助工具在文獻(xiàn)中的使用頻率占比依次為Citespace(84.68%)、VOSviewer(4.56%)、Ucinet(3.51%)、Histcite(1.65%)、Pajek(1.01%)以及Bibexcel(0.70%)。據(jù)此本文對(duì)文獻(xiàn)分析領(lǐng)域最為常用的前三種可視化分析工具Citespace、VOSviewer以及Ucinet的關(guān)鍵性分析方法進(jìn)行探究,并對(duì)海洋領(lǐng)域文獻(xiàn)分析的可用輔助工具進(jìn)行總結(jié)。
1.1.1 CiteSpace
2003年,李杰等人[10]開(kāi)發(fā)出可視化分析工具Star-Walker軟件,后又命名為CiteSpace,能夠分析眾多文獻(xiàn)內(nèi)蘊(yùn)含的潛在信息,利用相關(guān)的可視化方法呈現(xiàn)出探究方向、研究演變規(guī)律及分布信息等。最初僅提供文獻(xiàn)的共引分析功能,后又引入各個(gè)知識(shí)間信息的共現(xiàn)分析,如作者、國(guó)家、機(jī)構(gòu)等。Citespace支持WoS、CNKI等多個(gè)中英文平臺(tái)文獻(xiàn)數(shù)據(jù)的直接導(dǎo)入,能對(duì)科研文獻(xiàn)數(shù)據(jù)進(jìn)行高效分析,因此廣泛應(yīng)用于領(lǐng)域文獻(xiàn)分析工作。本文通過(guò)分析海洋領(lǐng)域知識(shí)圖譜應(yīng)用的34篇文獻(xiàn),發(fā)現(xiàn)最為海洋領(lǐng)域科學(xué)工作者常用的CiteSpace分析功能為共被引和耦合網(wǎng)絡(luò)分析、科研合作網(wǎng)絡(luò)分析以及主題和領(lǐng)域共現(xiàn)網(wǎng)絡(luò)分析。
共被引關(guān)系是指在文獻(xiàn)引用時(shí),若A文獻(xiàn)與B文獻(xiàn)共同被C文獻(xiàn)所引用,則A與B文獻(xiàn)之間就存在共被引關(guān)系[11]。而耦合關(guān)系指的是,在A文獻(xiàn)與B文獻(xiàn)共同引用C文獻(xiàn)時(shí),A文獻(xiàn)與B文獻(xiàn)之間就存在了耦合關(guān)系[12]。在一個(gè)文獻(xiàn)集中,通過(guò)共被引和耦合網(wǎng)絡(luò)關(guān)系挖掘就能找出研究主題相近的文獻(xiàn)。
CiteSpace中提供了學(xué)者、機(jī)構(gòu)以及國(guó)家和地區(qū)合作三種分析方式,能夠深入探究微觀和宏觀層次學(xué)術(shù)間的聯(lián)系。主題和領(lǐng)域共現(xiàn)針對(duì)從文獻(xiàn)標(biāo)題、關(guān)鍵詞和摘要中提取的名詞性短語(yǔ)以及科學(xué)領(lǐng)域名稱進(jìn)行分析,使得每篇被引文獻(xiàn)主題更為突出和直觀,便于進(jìn)一步地分析處理。通過(guò)以上功能實(shí)現(xiàn)的可視化分析能夠揭示數(shù)據(jù)間的復(fù)雜聯(lián)系和隱含聯(lián)系,在分析和研究學(xué)科的動(dòng)態(tài)發(fā)展規(guī)律上具有顯著的優(yōu)勢(shì)[13]。
1.1.2 VOSviewer
Van Eck與Waltman在2010年開(kāi)發(fā)出文獻(xiàn)計(jì)量軟件VOSviewer[14],其適用范圍不僅涵蓋了學(xué)術(shù)出版物,對(duì)于社交媒體及網(wǎng)絡(luò)上的一些半結(jié)構(gòu)化數(shù)據(jù)都有著較強(qiáng)的適用性。
VOSviewer能夠基于共現(xiàn)數(shù)據(jù)進(jìn)行文獻(xiàn)作者、期刊以及關(guān)鍵詞等的聚類網(wǎng)絡(luò)構(gòu)建,且該程序采用了基于距離的圖譜構(gòu)建方式,使得節(jié)點(diǎn)的距離遠(yuǎn)近可以清晰地反饋關(guān)系的強(qiáng)弱程度,距離越近則聯(lián)系越緊密[15]。這種做法易于聚類但網(wǎng)絡(luò)中存在大量未標(biāo)記數(shù)據(jù)時(shí)不利于為節(jié)點(diǎn)添加標(biāo)簽。
VOSviewer的一大優(yōu)勢(shì)是支持從CNKI、WoS、PubMed等一眾中英文文獻(xiàn)平臺(tái)的數(shù)據(jù)信息讀取。其操作簡(jiǎn)單、頁(yè)面簡(jiǎn)潔,而且生成的圖譜網(wǎng)絡(luò)能夠快速配置,不容易造成節(jié)點(diǎn)的堆疊現(xiàn)象。另外網(wǎng)絡(luò)可視化、時(shí)間演變可視化以及密度可視化三種呈現(xiàn)方式大大提高了關(guān)鍵信息的獲取能力,故其應(yīng)用一直較為廣泛,但也存在聚類方法固定、不支持對(duì)圖譜網(wǎng)絡(luò)的節(jié)點(diǎn)細(xì)節(jié)信息的調(diào)整等問(wèn)題。
1.1.3 Ucinet
Ucinet的問(wèn)世可追溯至由Freeman[16]創(chuàng)建的版本,后又經(jīng)Borgatti與Everett的不斷完善,迄今為止支持txt、csv、xls、vna格式以及其他程序格式,譬如Pajek、Negopy、Krackplot。
較為特殊的是,Ucinet中的所有數(shù)據(jù)均采用矩陣的形式存儲(chǔ),因此可以便捷地對(duì)數(shù)據(jù)進(jìn)行多元統(tǒng)計(jì)、凝聚子群檢測(cè)、等效節(jié)點(diǎn)分析與網(wǎng)絡(luò)的假設(shè)檢驗(yàn)等,但也限定了讀入數(shù)據(jù)的內(nèi)容只能為共現(xiàn)矩陣形式。故需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,較為便捷的做法是利用STAI程序[17]對(duì)待分析的文獻(xiàn)關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),將生成的共現(xiàn)關(guān)系矩陣導(dǎo)入U(xiǎn)cinet[18]。
此外,對(duì)關(guān)鍵詞進(jìn)行可視化分析還需使用Ucinet內(nèi)置的NetDraw工具,通過(guò)節(jié)點(diǎn)中心性分析使得在網(wǎng)絡(luò)中作用強(qiáng)的節(jié)點(diǎn)在圖譜中更大,在同篇文章中共現(xiàn)強(qiáng)度大的線條更粗。
針對(duì)不同作者、地區(qū)等來(lái)源的文獻(xiàn)分析實(shí)質(zhì)上屬于整體網(wǎng)絡(luò)的研究,這種對(duì)于眾多待分析文獻(xiàn)之間的關(guān)系進(jìn)行探究更側(cè)重于關(guān)系的傳遞、整體網(wǎng)密度、距離等,能夠深入分析文獻(xiàn)之間的結(jié)構(gòu)[19],這也是Ucinet最為明顯的優(yōu)勢(shì)。但因其還需針對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,無(wú)法直接針對(duì)各種平臺(tái)的導(dǎo)出文獻(xiàn)直接進(jìn)行分析,而且無(wú)法對(duì)聚類網(wǎng)絡(luò)進(jìn)行動(dòng)態(tài)呈現(xiàn)及調(diào)整,因此近年來(lái)在領(lǐng)域文獻(xiàn)分析應(yīng)用上并不廣泛。
如表1所示,海洋文獻(xiàn)數(shù)據(jù)量多,在利用Ucinet做領(lǐng)域文獻(xiàn)分析時(shí),雖然可以對(duì)生成的圖譜網(wǎng)絡(luò)進(jìn)行自定義操作,但其不能夠直接對(duì)平臺(tái)數(shù)據(jù)進(jìn)行利用,相較于VOSviewer缺乏了便捷性,且關(guān)鍵詞等數(shù)據(jù)信息過(guò)多時(shí),標(biāo)簽的堆疊會(huì)影響可視化效果。VOSviewer學(xué)習(xí)成本低,使用便捷且附帶的密度可視化功能能夠最大程度上提供關(guān)鍵信息,適合處理大型復(fù)雜數(shù)據(jù)。但其聚類核心算法較為單一且固定,而且難以對(duì)聚類圖譜的節(jié)點(diǎn)進(jìn)行自由調(diào)整。Citespace結(jié)合了Ucient與VOSviewer的優(yōu)勢(shì),既能夠直接對(duì)中英文文獻(xiàn)數(shù)據(jù)進(jìn)行分析,還提供了集群視圖、時(shí)間軸視圖等呈現(xiàn)方式,功能更加豐富,可操控性更強(qiáng),因此Citespace廣泛應(yīng)用于各領(lǐng)域文獻(xiàn)分析中。本文將重點(diǎn)探究利用Citespace進(jìn)行海洋領(lǐng)域文獻(xiàn)分析的演變歷程。
表1 常用文獻(xiàn)計(jì)量工具對(duì)比表Table1 Comparison table of commonly used bibliometric tools
1.1.4 海洋文獻(xiàn)的可視化分析演變
早在2012年知識(shí)圖譜正式被谷歌提出之前,贠強(qiáng)等人[20]將主題共現(xiàn)分析引入海洋水產(chǎn)業(yè),通過(guò)梳理各國(guó)海洋水產(chǎn)養(yǎng)殖論文的高頻關(guān)鍵詞,繪制出類圖譜形式的網(wǎng)絡(luò),從而得出了不同國(guó)家針對(duì)海洋水產(chǎn)領(lǐng)域養(yǎng)殖的主要關(guān)注點(diǎn)。但眾多關(guān)鍵詞屬于并列存在,圖譜中每個(gè)節(jié)點(diǎn)都堆疊了大量的關(guān)鍵詞,既增加了分析的難度,也沒(méi)有很好地凸顯主要關(guān)鍵詞的重要性,起到的輔助效果并不顯著。
2016年,韓增林等人[21]將當(dāng)時(shí)已經(jīng)較為成熟的CiteSpace軟件應(yīng)用到了中國(guó)海洋資源分析上,通過(guò)將關(guān)鍵詞以及作者圖譜化,已經(jīng)能夠做到將相關(guān)重點(diǎn)信息突出顯示,正式拉開(kāi)了將CiteSpace可視化工具引入海洋領(lǐng)域文獻(xiàn)分析的序幕。CiteSpace可視化有利于彰顯關(guān)鍵信息,但不利于多項(xiàng)詳細(xì)數(shù)據(jù)的對(duì)比,針對(duì)這一問(wèn)題,2017年,張??〉热薣22]結(jié)合關(guān)鍵詞統(tǒng)計(jì)三線表和基于共詞分析的知識(shí)圖譜用于海洋科學(xué)領(lǐng)域內(nèi)的分析。
從2018年開(kāi)始,以關(guān)鍵詞、作者以及研究機(jī)構(gòu)數(shù)據(jù)對(duì)比三線表和關(guān)鍵詞圖譜的聯(lián)合分析已漸成主流分析方式,諸如海洋藥物[23]、珊瑚礁[24]、海洋油氣安全等[25]研究方向較為具體的領(lǐng)域也開(kāi)始沿用這一方式。2019年和2020年,針對(duì)海洋領(lǐng)域的相關(guān)文獻(xiàn)分析實(shí)現(xiàn)井噴式增長(zhǎng),上海海洋大學(xué)[26-31]、中國(guó)海洋大學(xué)[32-33]等高校科研機(jī)構(gòu)開(kāi)始大量將知識(shí)圖譜應(yīng)用于海洋領(lǐng)域進(jìn)行文獻(xiàn)分析,也標(biāo)志著知識(shí)圖譜技術(shù)在海洋領(lǐng)域文獻(xiàn)分析地位的正式確立,但依托可視化圖譜工具形成的聚類網(wǎng)絡(luò)缺乏分析,還需科研人員的深入研究和知識(shí)再加工,而且針對(duì)海洋領(lǐng)域文獻(xiàn)的探究尚停留在分析階段,如何有效地將學(xué)術(shù)聯(lián)系實(shí)際數(shù)據(jù),真正與實(shí)際應(yīng)用相結(jié)合是目前海洋學(xué)術(shù)領(lǐng)域有待商榷的問(wèn)題。
海洋領(lǐng)域的知識(shí)圖譜可以表示海洋領(lǐng)域數(shù)據(jù)與知識(shí)屬性、數(shù)據(jù)與知識(shí)間的內(nèi)在關(guān)聯(lián)。如圖3,利用數(shù)據(jù)層和方法層的構(gòu)建,就能夠做到很好地服務(wù)于應(yīng)用層。大體上,服務(wù)于海洋領(lǐng)域的知識(shí)圖譜與服務(wù)于通用知識(shí)的圖譜結(jié)構(gòu)上相同,但又有以下幾個(gè)特性[34]:(1)不同于通用知識(shí)圖譜的全面概括性,海洋領(lǐng)域的數(shù)據(jù)與知識(shí)只涵蓋海洋領(lǐng)域范疇內(nèi)的研究對(duì)象。例如海洋生物、海洋環(huán)境等。相較于通用知識(shí)圖譜具備更高的精度以及更為嚴(yán)格的可解釋性,利于海洋領(lǐng)域?qū)<壹把芯咳藛T對(duì)其結(jié)果進(jìn)行驗(yàn)證分析與理解。(2)通用知識(shí)圖譜可以利用網(wǎng)絡(luò)的開(kāi)放資源進(jìn)行構(gòu)建,面向的服務(wù)對(duì)象較為寬泛,數(shù)據(jù)來(lái)源也不作過(guò)多要求,但海洋領(lǐng)域垂直圖譜對(duì)數(shù)據(jù)來(lái)源要求苛刻,多數(shù)源于自身的數(shù)據(jù)觀測(cè)與積累以及相關(guān)權(quán)威機(jī)構(gòu)的數(shù)據(jù)發(fā)布,部分難以直接從網(wǎng)絡(luò)中獲得,因此有很大的局限性。以上這些特性也決定了海洋領(lǐng)域垂直圖譜的構(gòu)建方式。
圖3 知識(shí)圖譜結(jié)構(gòu)Fig.3 Knowledge graph structure
當(dāng)前服務(wù)于特定領(lǐng)域的知識(shí)圖譜構(gòu)建主要分為自頂向下和自底向上兩種方法[35]。自頂向下方法主要依托完善的高質(zhì)量結(jié)構(gòu)化數(shù)據(jù),需要人工事先定義好本體框架,再抽取輸入數(shù)據(jù)的相關(guān)實(shí)體、關(guān)系等信息完成圖譜的構(gòu)建,這種方法主要針對(duì)行業(yè)知識(shí)圖譜、特定領(lǐng)域知識(shí)圖譜等。而自底向上的方式則是從網(wǎng)絡(luò)上的開(kāi)放數(shù)據(jù)集和非結(jié)構(gòu)化文本中提取出置信度高的知識(shí)數(shù)據(jù),這種方法能夠大批量地獲取廣泛數(shù)據(jù),因此適用于通用知識(shí)圖譜的構(gòu)建,在缺乏專業(yè)數(shù)據(jù)時(shí),自底向上同樣可以應(yīng)用于海洋領(lǐng)域,不僅能夠節(jié)省人力成本,而且在高質(zhì)量數(shù)據(jù)缺乏時(shí)構(gòu)建效果要優(yōu)于自頂向上的方式。本文主要針對(duì)面向海洋領(lǐng)域的垂直圖譜構(gòu)建技術(shù)進(jìn)行分析與探究。
根據(jù)國(guó)家海洋科學(xué)中心(http://mds.nmdis.org.cn)的分類,海洋數(shù)據(jù)大體可分為兩種屬性:(1)海洋水文、海洋氣象、海洋生物、海洋化學(xué)、海洋地質(zhì)、海洋地球物理以及海洋地形等實(shí)測(cè)數(shù)據(jù)。(2)海洋環(huán)境遙感產(chǎn)品、遙感影響、海底地形以及矢量地圖數(shù)據(jù)等地理與遙感數(shù)據(jù)。以上涉及海洋領(lǐng)域的數(shù)據(jù)類型可分為非結(jié)構(gòu)化與結(jié)構(gòu)化兩種[36],其中結(jié)構(gòu)化數(shù)據(jù)中又包含半結(jié)構(gòu)化數(shù)據(jù)。本文主要基于較難提取的半結(jié)構(gòu)化以及非結(jié)構(gòu)化這兩種數(shù)據(jù)進(jìn)行海洋垂直圖譜的構(gòu)建分析。其中涉及的關(guān)鍵技術(shù)主要有海洋領(lǐng)域知識(shí)抽取、海洋領(lǐng)域知識(shí)融合以及針對(duì)融合后知識(shí)的計(jì)算。下面將介紹知識(shí)抽取涉及到的關(guān)鍵技術(shù)、知識(shí)融合和知識(shí)計(jì)算的方法,為應(yīng)用于海洋領(lǐng)域的知識(shí)圖譜技術(shù)提供合適的方法參考。
1.2.1 針對(duì)海洋領(lǐng)域非結(jié)構(gòu)化數(shù)據(jù)的抽取
構(gòu)建大型的知識(shí)圖譜離不開(kāi)知識(shí)抽取,知識(shí)抽取本質(zhì)上就是從異源異構(gòu)的數(shù)據(jù)中提煉出知識(shí)并存入知識(shí)圖譜中[37]。海洋領(lǐng)域非結(jié)構(gòu)化的數(shù)據(jù)涵蓋政府發(fā)布海洋災(zāi)害文件、海洋生物新聞報(bào)道以及海洋類科技文獻(xiàn)等,Wiki百科數(shù)據(jù)由于數(shù)據(jù)量多、覆蓋面廣,因此也是分析的重點(diǎn)。利用命名實(shí)體識(shí)別技術(shù)、關(guān)系抽取技術(shù)、事件抽取技術(shù)可以從非結(jié)構(gòu)化的數(shù)據(jù)中抽取出相應(yīng)的知識(shí)。
(1)命名實(shí)體識(shí)別
命名實(shí)體即含有名稱的短語(yǔ),涵蓋人名、地名、機(jī)構(gòu)名、時(shí)間以及數(shù)量[38]。海洋領(lǐng)域命名實(shí)體識(shí)別的關(guān)鍵在于從眾多文本中挖掘出命名實(shí)體,諸如海洋生物名稱、地理位置、時(shí)間和日期等,并將這些信息分配至預(yù)先定義的類別中。如圖4所示,給定一句文本數(shù)據(jù)“藍(lán)鯨主要分布于南極海域,以磷蝦和浮游動(dòng)物為食”,其中“藍(lán)鯨”“磷蝦”“浮游動(dòng)物”歸屬為名稱類型實(shí)體,而“南極海域”歸屬為地理位置類型的實(shí)體。命名實(shí)體識(shí)別技術(shù)可分為基于規(guī)則、基于統(tǒng)計(jì)模型以及基于深度學(xué)習(xí)三種[39]。
圖4 實(shí)體抽取舉例Fig.4 Entity extraction example
基于規(guī)則的技術(shù)涉及到大量人工規(guī)則的制訂,高度依賴規(guī)則的準(zhǔn)確性,因此規(guī)則制定人員局限于特定領(lǐng)域?qū)<?,在面?duì)較大數(shù)據(jù)集時(shí),構(gòu)建周期較為漫長(zhǎng)且可移植性差,不如基于統(tǒng)計(jì)模型與基于深度學(xué)習(xí)的技術(shù)較為常用。
②基于統(tǒng)計(jì)模型
基于統(tǒng)計(jì)模型的技術(shù)囊括了隱馬爾可夫模型(hidden Markov model,HMM),條件馬爾可夫模型(conditional Markov model,CMM)、條件隨機(jī)場(chǎng)模型(conditional random fields,CRF)與最大熵模型(maximum entropy model,MEM)。其中HMM模型和CRF模型在實(shí)體抽取方面最為常用,這兩種模型采用標(biāo)注過(guò)的語(yǔ)料對(duì)模型進(jìn)行訓(xùn)練,能夠在當(dāng)前輸入特征與先前預(yù)測(cè)標(biāo)簽之間建立相互依賴關(guān)系,使得模型一步步修正。
HMM模型[40]如圖5所示,其結(jié)構(gòu)為有向圖,本質(zhì)為概率模型,在統(tǒng)計(jì)學(xué)習(xí)模型的應(yīng)用中包含可觀測(cè)序列和隱藏狀態(tài)序列,在一段語(yǔ)句中,可被觀察到的語(yǔ)句稱為可觀測(cè)序列,而起潛在表達(dá)作用的就是隱藏狀態(tài)序列,在命名實(shí)體識(shí)別應(yīng)用中,詞標(biāo)注序列和待標(biāo)注的觀測(cè)序列對(duì)應(yīng)可觀測(cè)序列與隱藏狀態(tài)序列。其中隨機(jī)變量x t為t時(shí)刻的詞標(biāo)注,隨機(jī)變量y t為t時(shí)刻的待標(biāo)注觀測(cè)值,箭頭表示條件依賴關(guān)系。HMM模型有兩個(gè)基本假設(shè):
圖5 HMM模型結(jié)構(gòu)與線性鏈CRF模型結(jié)構(gòu)Fig.5 HMM model structure and linear chain CRF model structure
假設(shè)1 HMM模型具有明顯的相關(guān)性,在任意t時(shí)刻的標(biāo)注信息僅且只依賴t-1時(shí)刻的標(biāo)注信息。
假設(shè)2針對(duì)任意t時(shí)刻的待標(biāo)注數(shù)據(jù)僅且只依賴t時(shí)刻的馬爾可夫鏈狀態(tài)信息??梢钥闯鯤MM高度注重依賴關(guān)系。
鄭鵬[41]針對(duì)海洋季風(fēng),構(gòu)建了季風(fēng)專用HMM模型,較早地將HMM模型引入了海洋領(lǐng)域。但因HMM模型僅與狀態(tài)及其對(duì)應(yīng)的觀察對(duì)象相關(guān),故難以避免地忽視了觀測(cè)序列長(zhǎng)度信息以及語(yǔ)句信息的上下文等重要信息。
CRF模型[42]規(guī)避了HMM模型苛刻的假設(shè)條件,因此能夠囊括任意位置的上下文信息,在一定程度上針對(duì)HMM模型的不足做了彌補(bǔ)。CRF模型其實(shí)質(zhì)是一個(gè)條件概率模型,利用給定輸入標(biāo)記序列來(lái)預(yù)測(cè)待標(biāo)記的觀測(cè)序列,通過(guò)給定的數(shù)據(jù)訓(xùn)練集,該模型利用極大似然估計(jì)生成條件概率模型。在對(duì)新數(shù)據(jù)進(jìn)行標(biāo)注時(shí),給定輸入序列y,模型輸出使P(z|y)該條件概率最大的z。
在海洋領(lǐng)域中,命名實(shí)體識(shí)別技術(shù)很少只采用統(tǒng)計(jì)學(xué)模型的方法進(jìn)行,一方面原因就是只采用統(tǒng)計(jì)學(xué)模型進(jìn)行實(shí)體抽取往往精度不高,再者就是伴隨著深度學(xué)習(xí)技術(shù)的愈發(fā)成熟,更多學(xué)者選擇將統(tǒng)計(jì)模型和深度學(xué)習(xí)方法綜合起來(lái),達(dá)到省去人工定義特征和一些外部資源的效果。
③基于深度學(xué)習(xí)
2016年起,針對(duì)神經(jīng)網(wǎng)絡(luò)的研究成果迎來(lái)了高產(chǎn)期,因其網(wǎng)絡(luò)中包含許多隱藏層與隱藏節(jié)點(diǎn),使得神經(jīng)網(wǎng)絡(luò)具有出色的表達(dá)能力以及對(duì)數(shù)據(jù)的擬合能力,因此也普遍應(yīng)用在了自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域[43],命名實(shí)體識(shí)別也得益于此,有了進(jìn)一步發(fā)展。其典型代表包含卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和融合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)[44]。2016年Lample等人[45]提出BiLSTM-CRF模型,率先將統(tǒng)計(jì)模型與深度學(xué)習(xí)技術(shù)相融合應(yīng)用于命名實(shí)體識(shí)別,如圖6,應(yīng)用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long shotterm memory neural network,BiLSTM)將每個(gè)詞的左側(cè)l n、右側(cè)r n向量進(jìn)行連接,構(gòu)成詞的向量c n輸出給CRF層后,再由CRF層標(biāo)注句子中的實(shí)體。與單一CRF相比,能夠引入與單個(gè)詞相關(guān)的左右含義,進(jìn)一步提高了標(biāo)注的精準(zhǔn)度。
圖6 BiLSTM-CRF結(jié)構(gòu)圖Fig.6 BiLSTM-CRF structure diagram
Ma等人[46]在BiLSTM-CRF模型的基礎(chǔ)上又引入了卷積神經(jīng)網(wǎng)絡(luò),提出了BiLSTM-CNNs-CRF模型,相較于前一模型,該模型通過(guò)在嵌入層引入CNN來(lái)從單詞字符中提取詞形信息,并將提取的信息編碼為能被機(jī)器開(kāi)發(fā)的神經(jīng)表征,能夠解決當(dāng)前深度學(xué)習(xí)中過(guò)于依賴領(lǐng)域知識(shí)和手工定義特征的問(wèn)題。如圖7,用于實(shí)體識(shí)別的CNN[47]是將字符嵌入經(jīng)過(guò)Dropout抑制過(guò)擬合后再進(jìn)行卷積,通過(guò)最大值池化處理降低特征向量的大小,再生成字符級(jí)的向量表示。這種在嵌入層的處理方式不再基于標(biāo)注數(shù)據(jù),能自動(dòng)化抽取相關(guān)實(shí)體并且能夠最大化地提取實(shí)體特征,使得F1值進(jìn)一步提高。
圖7 CNN神經(jīng)表征生成圖Fig.7 CNN neural representation generation map
賀琳等人[48]為解決外來(lái)海洋生物實(shí)體識(shí)別效果較差的問(wèn)題,在前兩個(gè)模型的基礎(chǔ)上,為了減少參數(shù)量,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),將BiLSTM模塊替換為雙向門控循環(huán)單元(bidirectional gated recurrent unit,BiGRU),提出了CNN-BiGRU-CRF模型。由于注意力機(jī)制借鑒了人類對(duì)不同事物的關(guān)注度不同,因此引入注意力機(jī)制可以有選擇地重視部分關(guān)鍵信息,而相應(yīng)忽視同時(shí)接收到的其他信息[49],將其引入文本處理中可以賦予重點(diǎn)文本較高權(quán)重,而相應(yīng)減少其他文本權(quán)重。賀琳等人在Bi GRUCRF層中采用了圖8所示的融合注意力機(jī)制(attention mechanism,AM)[50]的向量組合方法。模型先通過(guò)BiGRU學(xué)習(xí)和表示外來(lái)生物文本級(jí)別數(shù)據(jù)的上下文信息,再利用注意力機(jī)制來(lái)獲取海洋生物實(shí)體的重點(diǎn)語(yǔ)義特征,能夠避免文本數(shù)據(jù)中的長(zhǎng)距離依賴問(wèn)題,提高了海洋生物的實(shí)體識(shí)別準(zhǔn)確度,也為今后海洋生物、概念等信息識(shí)別提供了參考借鑒。
圖8 融合AM的詞向量與字符級(jí)向量結(jié)構(gòu)Fig.8 Combining AM’s word vector and characterlevel vector structure
因?yàn)樽⒁饬C(jī)制更依賴外在因素,He等人[51]將圖9所示的多頭自注意力機(jī)制引入中國(guó)海洋文本數(shù)據(jù)的實(shí)體識(shí)別中,利用知識(shí)圖嵌入向量和BiLSTM的輸出向量共同作為自注意力機(jī)制的輸入向量,同時(shí)兼顧了特征的內(nèi)部相關(guān)性和長(zhǎng)序列依賴關(guān)系,進(jìn)一步提高了外來(lái)海洋生物實(shí)體識(shí)別的準(zhǔn)確度,提升了對(duì)語(yǔ)料庫(kù)的實(shí)體識(shí)別能力。在海洋數(shù)據(jù)上的出色應(yīng)用也進(jìn)一步明確了多頭注意力機(jī)制在海洋領(lǐng)域的使用前景。
圖9 多頭注意力機(jī)制結(jié)構(gòu)Fig.9 Multi-head attention mechanism structure
④海洋領(lǐng)域命名實(shí)體識(shí)別難點(diǎn)及技術(shù)分析
相較于通用的實(shí)體識(shí)別,海洋領(lǐng)域的部分名詞實(shí)體過(guò)長(zhǎng),例如魚(yú)類“魏氏小公魚(yú)”與“西伯利亞多棘牛尾魚(yú)”等,其中“魏氏”“小公魚(yú)”“西伯利亞”“牛尾魚(yú)”等又是一個(gè)獨(dú)立的實(shí)體單位,這就造成了長(zhǎng)實(shí)體中往往會(huì)包含多個(gè)短實(shí)體,因此海洋領(lǐng)域?qū)嶓w邊界較為模糊,識(shí)別難度大。再者,如“新月錦魚(yú)”又稱“青衣魚(yú)”“花面龍”“花面綠龍”等,海洋生物的別稱較多,同種物體別稱可達(dá)數(shù)種,也進(jìn)一步增加了實(shí)體識(shí)別的難度。另一就是數(shù)據(jù)的質(zhì)量問(wèn)題,標(biāo)注海洋領(lǐng)域?qū)嶓w數(shù)據(jù)對(duì)專業(yè)素質(zhì)要求嚴(yán)苛,因此利用未標(biāo)注數(shù)據(jù)訓(xùn)練模型來(lái)進(jìn)行實(shí)體識(shí)別就顯得尤為重要。
如表2所示,可以看出在小規(guī)模數(shù)據(jù)集上,手工編寫(xiě)規(guī)則依靠人力進(jìn)行,因而可以考慮到海洋生物數(shù)據(jù)的多種指代現(xiàn)象,其精準(zhǔn)度更高。然而這種方法要求規(guī)則編寫(xiě)者對(duì)海洋數(shù)據(jù)有相當(dāng)程度的了解,而且構(gòu)建規(guī)則費(fèi)時(shí)費(fèi)力,故僅局限于小規(guī)模簡(jiǎn)單數(shù)據(jù)集。HMM模型以及CRF模型能夠節(jié)省人力成本,但對(duì)于序列文本的上下文信息獲取乏力,在丟失了上下文可能對(duì)當(dāng)前實(shí)體識(shí)別數(shù)據(jù)造成的影響后,容易造成實(shí)體的識(shí)別誤差,但上下文數(shù)據(jù)不可能對(duì)后續(xù)所有實(shí)體識(shí)別都造成影響,因此也要避免當(dāng)前的實(shí)體不受較長(zhǎng)時(shí)間的狀態(tài)的干擾。BiLSTM-CRF模型能夠解決當(dāng)前狀態(tài)被很長(zhǎng)時(shí)間前狀態(tài)影響的問(wèn)題,CNN-BiGRU-CRF模型和BiLSTM-MultiAtt-CRF模型則是在BiLSTM-CRF的基礎(chǔ)上對(duì)內(nèi)外依賴關(guān)系做出了調(diào)整。在海洋類數(shù)據(jù)集較小且短序列文本居多時(shí),可以采用CRF以及融合BiLSTM與CRF的模型,因其網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,能夠有效地提升運(yùn)行速度。當(dāng)需要處理較大規(guī)模海洋數(shù)據(jù)且存在長(zhǎng)序列復(fù)雜關(guān)系時(shí),CNNBiGRU-CRF模型能夠在更為輕量化的網(wǎng)絡(luò)結(jié)構(gòu)中處理數(shù)據(jù),更加適合這種大型數(shù)據(jù)的處理,當(dāng)需處理的海洋類數(shù)據(jù)對(duì)精度較為敏感時(shí),可以采用BiLSTM-Multi-Att-CRF模型,有效捕捉特征的內(nèi)部相關(guān)性,進(jìn)一步提升結(jié)果精準(zhǔn)度。
表2 命名實(shí)體識(shí)別方法優(yōu)缺對(duì)比表Table 2 Comparison of advantages and disadvantages of named entity recognition methods
(2)關(guān)系抽取
海洋數(shù)據(jù)語(yǔ)料在通過(guò)實(shí)體抽取后,生成一些離散的命名實(shí)體,為能夠獲取語(yǔ)義方面的信息,需從對(duì)應(yīng)文本語(yǔ)料中捕獲實(shí)體內(nèi)的存在的相互關(guān)系,利用這種相互關(guān)系將實(shí)體與對(duì)應(yīng)關(guān)系關(guān)聯(lián)起來(lái),最終構(gòu)成網(wǎng)狀的結(jié)構(gòu)數(shù)據(jù)[52]。作為NLP的重點(diǎn)內(nèi)容之一,關(guān)系抽取目的在于發(fā)現(xiàn)給定的非結(jié)構(gòu)化數(shù)據(jù)中實(shí)體對(duì)間的首尾關(guān)系,其方法可分為模板匹配法、監(jiān)督學(xué)習(xí)法與弱監(jiān)督學(xué)習(xí)法。
①手工模板匹配
早期利用手工建立模板匹配的方法可以對(duì)簡(jiǎn)單的小規(guī)模數(shù)據(jù)做到快速抽取,例如對(duì)“藍(lán)鯨分布于南極海域。”進(jìn)行模板化處理可以得到“X分布于Y?!边\(yùn)用該模板進(jìn)行文本數(shù)據(jù)匹配就可捕獲到含有“分布”關(guān)系的實(shí)體。但由于海洋類數(shù)據(jù)集較大,關(guān)系錯(cuò)綜復(fù)雜,且手工構(gòu)建需要海洋領(lǐng)域?qū)<揖邆湟欢ǖ恼Z(yǔ)言學(xué)基礎(chǔ),同時(shí)又要求對(duì)NLP領(lǐng)域有著深層次的理解,制定難度較大,因此鮮有海洋類數(shù)據(jù)關(guān)系依托手工模板進(jìn)行抽取。
②基于監(jiān)督學(xué)習(xí)
基于監(jiān)督學(xué)習(xí)的關(guān)系抽取避免了手工制訂模板的短板,利用大量標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型后對(duì)特定關(guān)系進(jìn)行匹配識(shí)別與抽取。在深度學(xué)習(xí)中,關(guān)系抽取被等同于分類進(jìn)行處理,Zeng等人[53]率先將CNN用于關(guān)系分類,將單詞轉(zhuǎn)換為向量,參照輸入詞匯進(jìn)行詞級(jí)特征抽取,同時(shí)采用CNN進(jìn)行語(yǔ)句級(jí)特征的捕獲,將詞級(jí)特征與句子級(jí)特征進(jìn)行簡(jiǎn)單拼接并運(yùn)用激活函數(shù)得到最終結(jié)果,由于兼顧考慮了詞匯與語(yǔ)句的特征,在關(guān)系分類中優(yōu)于當(dāng)時(shí)最為先進(jìn)的方法。
雖然這種關(guān)注位置特征的模型有其優(yōu)越性,但將重點(diǎn)放在位置特征上時(shí)忽視了一些起著關(guān)鍵作用的信息。為解決這一問(wèn)題,Wang等人[54]提出Attention CNNs模型,把成熟的注意力機(jī)制融合到CNN中,經(jīng)過(guò)在輸入層融入詞與實(shí)體關(guān)聯(lián)的注意力并在池化層中融合目標(biāo)關(guān)系的注意力這兩種針對(duì)性的方式,有效提升關(guān)系抽取的精度。
隨著預(yù)處理模型Bert在NLP分類任務(wù)上取得顯著的提升效果,Wu等人脫離了CNN架構(gòu),首先將預(yù)處理模型用于關(guān)系分類,提出了一個(gè)結(jié)合目標(biāo)信息與預(yù)訓(xùn)練Bert模型的新模型[55]。如圖10,該模型在目標(biāo)實(shí)體前后插入用以識(shí)別特定目標(biāo)實(shí)體的特殊標(biāo)記,再將處理過(guò)的文本輸入Bert預(yù)訓(xùn)練模型中進(jìn)行參數(shù)微調(diào),最后利用Bert模型的輸出嵌入以及句子編碼作為多層神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行分,該模型能夠兼顧獲取語(yǔ)句以及實(shí)體間的語(yǔ)義關(guān)系,在SemEval-2010 task 8數(shù)據(jù)集上得到了最為先進(jìn)的成果。預(yù)處理模型不僅在關(guān)系分類上表現(xiàn)不俗,在各個(gè)方面應(yīng)用也較為廣泛,但目前在海洋領(lǐng)域還鮮有預(yù)處理模型的應(yīng)用,這也是以后的研究趨勢(shì)之一。
圖10 預(yù)處理模型用于關(guān)系抽取Fig.10 Preprocessing model for relation extraction
盡管監(jiān)督學(xué)習(xí)法在關(guān)系抽取中產(chǎn)生了很大的效用,但因監(jiān)督學(xué)習(xí)需要大批量的訓(xùn)練數(shù)據(jù),面對(duì)小批量數(shù)據(jù)時(shí)無(wú)法產(chǎn)生很好的效果。無(wú)監(jiān)督學(xué)習(xí)的方法可解釋性差,缺乏比較客觀的評(píng)價(jià)指標(biāo),其優(yōu)勢(shì)在于無(wú)需人工標(biāo)注數(shù)據(jù)且可以忽略實(shí)體對(duì)所蘊(yùn)含的領(lǐng)域知識(shí),但不適用于海洋領(lǐng)域。采用弱監(jiān)督學(xué)習(xí)的關(guān)系抽取融合了監(jiān)督學(xué)習(xí)以及無(wú)監(jiān)督學(xué)習(xí)的長(zhǎng)處,能夠只運(yùn)用小批量標(biāo)注信息實(shí)現(xiàn)模型的訓(xùn)練,主要采用遠(yuǎn)程監(jiān)督方法,該方法更為依賴現(xiàn)存知識(shí)庫(kù)的知識(shí)信息。
早在2009年,Mintz等人[56]為應(yīng)對(duì)訓(xùn)練樣本不足的情況,在關(guān)系抽取中結(jié)合了遠(yuǎn)程監(jiān)督的方法,其實(shí)質(zhì)是利用現(xiàn)有知識(shí)庫(kù)自動(dòng)標(biāo)注大規(guī)模訓(xùn)練數(shù)據(jù)。通過(guò)從Wikipedia等知識(shí)集合中提取出蘊(yùn)含關(guān)系的實(shí)體對(duì)當(dāng)作抽取標(biāo)準(zhǔn),再?gòu)姆墙Y(jié)構(gòu)性的語(yǔ)料中提取出此標(biāo)準(zhǔn)的語(yǔ)句當(dāng)作訓(xùn)練樣本,將該訓(xùn)練樣本用于模型的訓(xùn)練后再進(jìn)行關(guān)系的提取。這種通過(guò)知識(shí)圖譜自動(dòng)對(duì)齊語(yǔ)料來(lái)獲取大量標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練的方式有效減少了人工的主觀干預(yù),但訓(xùn)練數(shù)據(jù)集之中含有大批量噪聲,這就使得一些語(yǔ)義出現(xiàn)有誤標(biāo)注。
為解決這一問(wèn)題,Zeng等人[57]將CNN關(guān)系抽取模型運(yùn)用于遠(yuǎn)程監(jiān)督語(yǔ)料中,提出分段卷積神經(jīng)網(wǎng)絡(luò)(piecewise convolutional neural networks,PCNNs),將遠(yuǎn)程監(jiān)督關(guān)系的抽取視作多實(shí)例問(wèn)題,由未知標(biāo)簽的實(shí)例組成多個(gè)包,再由已知標(biāo)簽的眾多包組成訓(xùn)練集。一定程度上保證了實(shí)體句子與知識(shí)庫(kù)中關(guān)系的對(duì)應(yīng),提高了關(guān)系抽取的精度。
Ji等人[58]基于PCNNs模型,將PCNNs融合注意力機(jī)制,提出了APCNNs模型,通過(guò)句子層級(jí)的注意力模型在同一實(shí)體對(duì)的實(shí)例包中選取多個(gè)實(shí)例來(lái)最大化利用有效信息,相較于PCNNS性能有所提升。但其實(shí)質(zhì)是引入實(shí)體對(duì)的描述來(lái)改進(jìn)關(guān)系抽取能力,相對(duì)文本句等形式缺乏了上下文關(guān)系。
Qin等人[59]另辟蹊徑,將生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)用于穩(wěn)健的遠(yuǎn)程監(jiān)督關(guān)系抽取,通過(guò)對(duì)抗性訓(xùn)練提高模型的魯棒性,提出了DSGAN模型,相較于APCNNs在t檢驗(yàn)中P值有了明顯提升。但由于Qin等人只對(duì)遠(yuǎn)程監(jiān)督的關(guān)系抽取模型的噪聲加以控制,來(lái)達(dá)到抑制訓(xùn)練集中噪聲的影響,還是會(huì)存在一定量的錯(cuò)誤標(biāo)簽數(shù)據(jù)。
Feng[60]與Zheng等人[61]利用強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)的環(huán)境交互性,對(duì)比遠(yuǎn)程監(jiān)督的已標(biāo)記數(shù)據(jù)標(biāo)簽和模型預(yù)測(cè)數(shù)據(jù)標(biāo)簽的差異性來(lái)學(xué)習(xí)更正錯(cuò)誤標(biāo)簽。與之前的PCNNs和APNNs著重實(shí)體對(duì)的描述不同,強(qiáng)化學(xué)習(xí)以文本句為單位,有效提升了在語(yǔ)句層面的關(guān)系分類性能。這種方式同樣也適應(yīng)于數(shù)據(jù)量較少的非結(jié)構(gòu)化海洋數(shù)據(jù),利用一系列相關(guān)文本文件,結(jié)合GAN或者強(qiáng)化學(xué)習(xí)來(lái)降低數(shù)據(jù)集噪聲,達(dá)到抽取實(shí)體間關(guān)系的目的。
②海洋領(lǐng)域關(guān)系抽取難點(diǎn)及技術(shù)分析
不同于通用領(lǐng)域的實(shí)體關(guān)系抽取,海洋領(lǐng)域由于數(shù)據(jù)的特殊性,為保證關(guān)系抽取的精度,大多采用監(jiān)督學(xué)習(xí)的方式進(jìn)行,因而對(duì)于技術(shù)人員的海洋領(lǐng)域知識(shí)要求較高。另一方面,當(dāng)海洋數(shù)據(jù)橫跨多個(gè)子領(lǐng)域時(shí),會(huì)造成關(guān)系間跨度過(guò)大,普通關(guān)系抽取方法難以為繼等問(wèn)題。
關(guān)系抽取的精度高度依靠于數(shù)據(jù)集的規(guī)模,如表3所示,手工模板匹配能夠在小規(guī)模簡(jiǎn)單數(shù)據(jù)集中表現(xiàn)出色,但專業(yè)性人力的占用是不能夠避免的缺陷。CNNs模型可以在通用語(yǔ)義評(píng)測(cè)數(shù)據(jù)集上捕獲遠(yuǎn)距離特征,并且節(jié)省了人力資源,能夠?qū)?shí)體關(guān)系做到高效抽取。當(dāng)需要進(jìn)行關(guān)系抽取的海洋類數(shù)據(jù)集規(guī)模較小且數(shù)據(jù)量較少時(shí),可應(yīng)用CNNs模型對(duì)實(shí)體間的關(guān)系進(jìn)行提取,但由于模型結(jié)構(gòu)簡(jiǎn)單,不能夠?qū)ι顚哟蔚年P(guān)系有效的識(shí)別,Attention CNNs應(yīng)運(yùn)而生,極大提升了關(guān)系抽取的精確度,并由于引入注意力機(jī)制,能夠?qū)M跨子領(lǐng)域的實(shí)體起到不錯(cuò)的識(shí)別作用。隨著B(niǎo)ert模型在NLP領(lǐng)域內(nèi)出色的表現(xiàn),大量學(xué)者將其運(yùn)用到關(guān)系抽取中來(lái),這種預(yù)處理模型適用性非常強(qiáng),但同時(shí)也對(duì)數(shù)據(jù)集的規(guī)模做出了嚴(yán)苛要求,小型數(shù)據(jù)集很容易過(guò)擬合,PCNNs、APCNNs、DSGAN也是如此。強(qiáng)化學(xué)習(xí)方法比前幾種方法具備更強(qiáng)的適用性,由于不依賴模型,因此能夠適用于絕大部分神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),目前鮮有在海洋類數(shù)據(jù)集上的應(yīng)用,這也是未來(lái)有待探究的方向。
表3 關(guān)系抽取方法優(yōu)缺點(diǎn)對(duì)比表Tab.3 Comparison table of advantages and disadvantages of relation extraction methods
(3)事件抽取
事件即實(shí)際發(fā)生的事實(shí),一般情況下包含時(shí)間、地點(diǎn)、人物等屬性信息[62],例如海洋災(zāi)害、海洋科技新聞等。事件抽取旨在從一系列非結(jié)構(gòu)化類型的數(shù)據(jù)中提取出靶用戶關(guān)注的事情,并輔以結(jié)構(gòu)化形式表現(xiàn)出來(lái),其依賴于實(shí)體識(shí)別與關(guān)系抽取的提取結(jié)果。
Ahn等人[63]將事件抽取流程進(jìn)行了標(biāo)準(zhǔn)化制定,首先依據(jù)最能夠準(zhǔn)確表達(dá)事件發(fā)生的關(guān)鍵詞為觸發(fā)詞識(shí)別出文本中蘊(yùn)含的事件及類型,再?gòu)奈谋揪渲谐槿〕鰠⑴c一個(gè)具體事件的元素并判斷其與參與事件的關(guān)系,接著提取出描述事件的詞匯或文本句后對(duì)事件進(jìn)行屬性標(biāo)注和指代消解。通過(guò)以上的事件抽取方法,能夠完成關(guān)于文本事件信息的自動(dòng)提取。例如圖11中,對(duì)給定的非結(jié)構(gòu)化數(shù)據(jù)運(yùn)用事件抽取技術(shù),可以將其生成事件類型、時(shí)間、地點(diǎn)以及結(jié)果等結(jié)構(gòu)化數(shù)據(jù)。但是這種將事件抽取建模成多分類問(wèn)題的流水線式方法由于各階段子任務(wù)相互獨(dú)立,會(huì)難以防止誤差累積傳遞現(xiàn)象的發(fā)生,使事件抽取的效果大打折扣。
圖11 事件抽取示例Fig.11 Event extraction example
①基本模型
Li等人[64]為解決這一問(wèn)題,提出了一種聯(lián)合模型,將事件中所有關(guān)聯(lián)信息利用同一模型一起抽取,兼具了局部特征和全局特征,避免了累積誤差對(duì)事件抽取造成的性能影響。但這種模型不僅需要人工來(lái)設(shè)計(jì)特征,還需借助外部工具抽取事件句的特征。
Chen等人[65]提出了動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)(dynamic multi-pooling convolutional neural networks,DMCNN)模型,該方法可以在不使用復(fù)雜外部工具的條件下,進(jìn)行詞匯級(jí)以及語(yǔ)句級(jí)特征的自動(dòng)捕捉,并通過(guò)動(dòng)態(tài)的多層池化卷積保留了多事件句中的重要信息,最大程度上捕捉了事件中的關(guān)鍵特征。
②混合處理模型
在Li等人成功將預(yù)處理模型用于關(guān)系抽取的同年,Tian等人[66]將Bert預(yù)處理模型用于事件抽取,將Bert模型與BiLSTM層和CRF結(jié)構(gòu)相融合,此新模型能夠?qū)蝹€(gè)事件進(jìn)行雙向分析并兼顧對(duì)多事件信息運(yùn)用關(guān)聯(lián)分析,這種方式不僅能夠獲取參數(shù)間的聯(lián)系,還可以捕捉到不同事件之間的共有關(guān)系。在F1-Score上相較于其他模型精進(jìn)了4%~6%。這種引入預(yù)處理模型的方法雖然效果出眾,但需要大量的標(biāo)注訓(xùn)練數(shù)據(jù),在利用大量數(shù)據(jù)對(duì)預(yù)處理模型進(jìn)行微調(diào)后模型才能發(fā)揮最大的效果。
Zhang等人[67]基于聯(lián)合事件與關(guān)系抽取提出了一個(gè)聯(lián)合抽取的新方法,與Tian等人聯(lián)合Bert、BiLSTM、CRF相同的是,Zhang等人也采用BiLSTM學(xué)習(xí)事件關(guān)系。不同的是,如圖12所示,Zhang引入注意力機(jī)制來(lái)獲得事件文本句中的重要特征,將事件檢測(cè)與關(guān)系抽取以迭代的方式交互學(xué)習(xí),逐漸提高模型的性能,在較低資源配置的情況比以往方法取得了F1-Score精進(jìn)1.6%~1.8%的效果。這些方法在海洋領(lǐng)域事件抽取時(shí)給出了一些啟發(fā),當(dāng)海洋類型語(yǔ)料庫(kù)較大,已標(biāo)記事件文本句較為充足的條件下,Tian等人的方法更勝一籌,精度最高且事件抽取效果最好。在海洋類型數(shù)據(jù)量較少,缺乏一定程度的標(biāo)記數(shù)據(jù)時(shí),Zhang等人的事件抽取表現(xiàn)效果最佳。
圖12 小規(guī)模數(shù)據(jù)抽取模型Fig.12 Small-scale data extraction model
③海洋領(lǐng)域事件抽取難點(diǎn)及技術(shù)分析
海洋領(lǐng)域事件型數(shù)據(jù)以海洋災(zāi)害報(bào)告、海洋科技介紹等為主,使得海洋事件信息的來(lái)源具有局限性,可用資源較少。另外海洋數(shù)據(jù)中多有代指現(xiàn)象,譬如臺(tái)風(fēng)“杜鵑”,因此有可能會(huì)出現(xiàn)同一事件中實(shí)體名稱相同但指代對(duì)象不同的情況。最后,海洋領(lǐng)域多個(gè)事件之間可能產(chǎn)生聯(lián)系,譬如臺(tái)風(fēng)運(yùn)動(dòng)軌跡事件與臺(tái)風(fēng)災(zāi)害事件,加大了事件抽取的難度。
在事件抽取中,如表4所示,當(dāng)事件內(nèi)無(wú)聯(lián)系或者存在弱聯(lián)系時(shí),通用的標(biāo)準(zhǔn)化方法就可以完成對(duì)事件的抽取,但這種方法無(wú)法解決海洋領(lǐng)域事件內(nèi)同一名稱實(shí)體的多種指代問(wèn)題,DMCNN模型則能夠很好地捕捉多事件句中的重要特征。但以上方法適用數(shù)據(jù)集較為局限,Bert-BiLSTM-CRF模型與BiLSTM-Att模型能夠很好地對(duì)事件內(nèi)和多個(gè)事件間的聯(lián)系進(jìn)行有效抽取,可以應(yīng)用于海洋類數(shù)據(jù)集。當(dāng)海洋類數(shù)據(jù)集較大時(shí),利用Bert-BiLSTM-CRF模型進(jìn)行事件的抽取可以獲得更高的準(zhǔn)確度,而當(dāng)海洋類數(shù)據(jù)集較小時(shí),利用BiLSTM-Att模型可以解決標(biāo)注數(shù)據(jù)不足的問(wèn)題,使得在小規(guī)模海洋數(shù)據(jù)集的應(yīng)用上表現(xiàn)突出。
表4 事件抽取方法優(yōu)缺對(duì)比表Table 4 Comparison table of advantages and disadvantages of event extraction methods
1.2.2 針對(duì)海洋領(lǐng)域半結(jié)構(gòu)化數(shù)據(jù)的抽取
非結(jié)構(gòu)化的數(shù)據(jù)在一定程度上造成了知識(shí)抽取的復(fù)雜性,隨著Wikipedia、網(wǎng)頁(yè)等百科類及網(wǎng)頁(yè)數(shù)據(jù)的發(fā)展,一些半結(jié)構(gòu)化類型的數(shù)據(jù)愈來(lái)愈豐富,由于半結(jié)構(gòu)化數(shù)據(jù)類型較為特別,雖然與數(shù)據(jù)表的模式結(jié)構(gòu)不一致,但涵蓋了能夠區(qū)分語(yǔ)義類型的相關(guān)標(biāo)識(shí),并且可以分割記錄以及字段,因此也催生了相關(guān)知識(shí)抽取技術(shù)的應(yīng)用。
(1)百科類數(shù)據(jù)抽取
以Wiki百科為典型代表知識(shí)數(shù)據(jù)庫(kù),不僅數(shù)據(jù)量龐大,且由于采用了質(zhì)量控制機(jī)制,因此在數(shù)據(jù)海量發(fā)展的同時(shí)還能在一定程度上保證了信息的準(zhǔn)確性,普遍作為建立大型知識(shí)圖譜的關(guān)鍵數(shù)據(jù)來(lái)源[68]。當(dāng)前大型且高度完善的知識(shí)庫(kù)如Yago[69]與DBpedia[70]等旨在從Wiki百科中抽取數(shù)據(jù)進(jìn)行半自動(dòng)或自動(dòng)化構(gòu)建。其中Yago知識(shí)庫(kù)從Wiki百科中抽取眾多類型與信息框,并融合面向語(yǔ)義類型的英文詞典WordNet,對(duì)知識(shí)的抽取具有相當(dāng)程度的精準(zhǔn)性與高效性,但Yago的知識(shí)抽取面對(duì)已定義好的文本范圍以及語(yǔ)義關(guān)系時(shí)無(wú)法起到很好的效果[71],DBpedia直接從Wiki百科詞條信息框中抽取出的結(jié)構(gòu)化信息作為實(shí)體屬性與實(shí)體關(guān)系[72],彌補(bǔ)了Yago知識(shí)庫(kù)的不足。而且為了解決以上抽取方式所造成的不同表達(dá)實(shí)體名稱具有相同語(yǔ)義關(guān)系的問(wèn)題,DBpedia使用了基于映射的抽取方式,將信息框中的模板以及屬性信息映射到手工定義的本體類型與本體屬性中,利用本體詞匯相關(guān)信息提取出結(jié)構(gòu)化的信息,保證了數(shù)據(jù)的高度準(zhǔn)確性。
王蘭等人[73]利用Wiki百科數(shù)據(jù)構(gòu)建了一個(gè)關(guān)于漁業(yè)的知識(shí)庫(kù),同時(shí)提取Wiki頁(yè)面的魚(yú)類實(shí)體標(biāo)題與對(duì)應(yīng)的URLs歸入MySQL數(shù)據(jù)庫(kù)作為主要信息來(lái)源,并利用相關(guān)魚(yú)類實(shí)體摘要作為補(bǔ)充介紹,再通過(guò)實(shí)體消歧的技術(shù)來(lái)剔除冗余文本,構(gòu)建了一個(gè)漁業(yè)知識(shí)庫(kù)。這種Wiki頁(yè)面信息的提取一般采用爬蟲(chóng)的方式提取,通過(guò)編輯規(guī)則代碼,收集百科類數(shù)據(jù),能夠做到高效提取,但是后續(xù)的數(shù)據(jù)整理也離不開(kāi)人工,且由于百科類數(shù)據(jù)條目的構(gòu)建大多不是來(lái)自于權(quán)威專家,因此在利用百科類數(shù)據(jù)進(jìn)行抽取時(shí)其數(shù)據(jù)信息的準(zhǔn)確性高度依賴百科本身,這就限制了百科數(shù)據(jù)的選擇范圍。
(2)Web頁(yè)面數(shù)據(jù)抽取
與百科類數(shù)據(jù)相同的是,部分網(wǎng)頁(yè)也具備了大量的半結(jié)構(gòu)化的數(shù)據(jù),通過(guò)人工法、包裝器歸納法以及自動(dòng)抽取法可以從指定Web頁(yè)面中提取出所需知識(shí)信息[74]。人工方法需要編寫(xiě)出適合指定抽取頁(yè)面的提取表達(dá)式,優(yōu)勢(shì)在于能夠精準(zhǔn)化控制抽取信息,但局限于一個(gè)Web頁(yè)面,對(duì)新頁(yè)面進(jìn)行知識(shí)提取時(shí)還需要重新編輯表達(dá)式。歸納方法在多頁(yè)面上的抽取能力有所提升,利用監(jiān)督學(xué)習(xí)方法從人工標(biāo)注的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)知識(shí)提取的規(guī)則,并應(yīng)用于相同布局的Web頁(yè)面,省去了比重較大的手工代碼編輯時(shí)間。但這種方法不適用于類似布局的Web頁(yè)面,且需要大量人工標(biāo)注數(shù)據(jù),普適性較差。自動(dòng)抽取方法無(wú)須人工的參與,將布局相似的Web頁(yè)面聚類為一組,捕獲組內(nèi)的共有布局方式,可以生成針對(duì)該類Web頁(yè)面的包裝器,將需要抽取數(shù)據(jù)的Web頁(yè)面分配至對(duì)應(yīng)的包裝器就可以對(duì)知識(shí)數(shù)據(jù)進(jìn)行高效抽取。
海洋類數(shù)據(jù)百科多集中在海洋生物、島嶼等方面,分類較為詳盡具體,但數(shù)據(jù)可能存在質(zhì)量問(wèn)題且層次深度不夠。結(jié)合NOAA、國(guó)家海洋科學(xué)數(shù)據(jù)中心及中國(guó)海島網(wǎng)等國(guó)際數(shù)據(jù)網(wǎng)站中的科研數(shù)據(jù)就能夠做到信息的準(zhǔn)確性與深度性。
1.2.3 知識(shí)融合
在經(jīng)過(guò)知識(shí)的抽取后,雖然獲取了大量數(shù)據(jù),但這些數(shù)據(jù)缺少邏輯關(guān)聯(lián)以及存在著數(shù)據(jù)冗余、錯(cuò)誤等情況,再者又因數(shù)據(jù)來(lái)源的差異,不可避免地會(huì)產(chǎn)生多個(gè)知識(shí)圖譜。知識(shí)融合主要側(cè)重于剔除無(wú)用信息,并將不同數(shù)據(jù)源但擁有相同實(shí)體及關(guān)系的散亂信息整合在一起形成一個(gè)龐大的知識(shí)庫(kù)[75]。以下將闡述知識(shí)融合的關(guān)鍵技術(shù):實(shí)體鏈接與知識(shí)合并。
(1)實(shí)體鏈接
實(shí)體鏈接旨在識(shí)別出非結(jié)構(gòu)化數(shù)據(jù)中的實(shí)體,并匹配到知識(shí)庫(kù)中的相應(yīng)實(shí)體,一般化流程[76]分為:
實(shí)體指稱識(shí)別:利用前文所述的命名實(shí)體識(shí)別技術(shù)從結(jié)構(gòu)化數(shù)據(jù)如文本中提取實(shí)體指稱項(xiàng),其中按照自動(dòng)內(nèi)容抽取(automatic content extraction,ACE)闡述的定義,實(shí)體指稱項(xiàng)共有命名性指稱、名詞性指稱以及代詞性指稱項(xiàng)三類。
備選實(shí)體生成:確定文本數(shù)據(jù)中提取的實(shí)體指稱有可能指向的實(shí)體集合。
備選實(shí)體消歧:對(duì)存在重名的實(shí)體指稱項(xiàng)應(yīng)用歧義消除,并對(duì)多個(gè)實(shí)體對(duì)象均指代相同實(shí)體的情況進(jìn)行指代消解。
知識(shí)庫(kù)鏈接:將處理后的實(shí)體匹配到知識(shí)庫(kù)中與之對(duì)照的實(shí)體。
①指稱識(shí)別與備選實(shí)體生成
實(shí)體指稱識(shí)別就是將所需的實(shí)體在文本中進(jìn)行匹配識(shí)別,但一個(gè)實(shí)體指稱或許不僅與知識(shí)庫(kù)中一個(gè)實(shí)體相匹配,會(huì)存在一對(duì)多的情況,例如“海豚”也對(duì)應(yīng)“海狶”“海豬仔”等。備選實(shí)體生成的任務(wù)就是確定文本中的實(shí)體指稱可能對(duì)應(yīng)的全部實(shí)體集合[77],可以從以下方面來(lái)進(jìn)行:
實(shí)體名稱擴(kuò)展:許多實(shí)體名稱為縮略詞或關(guān)鍵信息詞,因而可以從實(shí)體名稱出現(xiàn)的相關(guān)文本中識(shí)別出可能存在。通常有模式匹配算法以及監(jiān)督學(xué)習(xí)法,其中模式匹配是利用實(shí)體的中涉及的縮寫(xiě)作為其擴(kuò)展的形式,而監(jiān)督學(xué)習(xí)法則是利用相關(guān)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)抽取更為復(fù)雜的縮寫(xiě)以及關(guān)鍵信息詞表示。
網(wǎng)絡(luò)實(shí)體候選:利用文本存在的實(shí)體指稱作為關(guān)鍵匹配信息,通過(guò)網(wǎng)絡(luò)引擎或百科搜索獲取得到更多的候選實(shí)體信息。實(shí)體的候選或者說(shuō)備選,實(shí)際上是文本實(shí)體指稱的變體,可能擁有不同的實(shí)體名稱,但候選實(shí)體的含義與文本實(shí)體一致。
實(shí)體查詢表:實(shí)際上是根據(jù)百科類網(wǎng)站提供的信息進(jìn)行信息抽取并生成一個(gè)涉及實(shí)體提及以及實(shí)體的引用表。
②備選實(shí)體消歧
當(dāng)文本數(shù)據(jù)中的實(shí)體指稱以及備選的實(shí)體被確定后,需要消除備選實(shí)體其歧義性,本質(zhì)上解決的是實(shí)體的重名性和多義性,其做法是利用一些消歧的技術(shù)將每一個(gè)實(shí)體指稱與確定的實(shí)體相對(duì)應(yīng)[78]。本文探究了當(dāng)下最為先進(jìn)的幾種方法,并技術(shù)上將其分為深度學(xué)習(xí)應(yīng)用法、圖結(jié)構(gòu)應(yīng)用法和預(yù)處理模型應(yīng)用法。
目前針對(duì)實(shí)體消歧的數(shù)據(jù)多集中在長(zhǎng)文本數(shù)據(jù)方面,因其有著相對(duì)完備的上下文數(shù)據(jù),實(shí)體的識(shí)別和消歧工作相對(duì)容易進(jìn)行,因此針對(duì)長(zhǎng)文本,Phan等人[79]探究了采用深度學(xué)習(xí)解決實(shí)體消歧的可行性,融合LSTM以及注意力機(jī)制,提出了NeuPL模型。如圖13所示,該網(wǎng)絡(luò)采用雙向的LSTM捕獲實(shí)體提及的左文本信息及右文本信息,利用注意力機(jī)制突出實(shí)體描述信息和實(shí)體ID,再對(duì)實(shí)體提及的上下文進(jìn)行反饋調(diào)節(jié),在Gerbil基準(zhǔn)平臺(tái)7種不同類型的數(shù)據(jù)集上均取得了領(lǐng)先。
圖13 結(jié)合Attention與LSTM的消歧網(wǎng)絡(luò)結(jié)構(gòu)Fig.13 Disambiguation network structure combining Attention and LSTM
但NeuPL模型只捕獲了實(shí)體提及左右文本句的信息,忽視了全局信息。Hu等人[80]為彌補(bǔ)全局信息的確實(shí),探究了基于端到端思想的消歧模型,通過(guò)構(gòu)建文檔的異構(gòu)實(shí)體圖來(lái)建模實(shí)體間的全局語(yǔ)義關(guān)系,運(yùn)用圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)在實(shí)體提及和備選實(shí)體的嵌入過(guò)程中對(duì)同一文檔中備選實(shí)體的全局語(yǔ)義進(jìn)行了編碼,再經(jīng)過(guò)條件隨機(jī)場(chǎng)來(lái)執(zhí)行實(shí)體消歧處理,這種方式能夠做到全局信息的利用,在2020年Gerbil基準(zhǔn)測(cè)試中達(dá)到了最先進(jìn)的性能。
短文本數(shù)據(jù)相較于長(zhǎng)文本數(shù)據(jù),缺乏完善的上下文信息,而且表述信息也不如長(zhǎng)文本數(shù)據(jù)準(zhǔn)確,實(shí)體的識(shí)別難度較大,因此Cheng等人[81]將Bert預(yù)處理模型應(yīng)用于短文本的實(shí)體識(shí)別與消歧中,利用知識(shí)庫(kù)對(duì)實(shí)體的信息進(jìn)行挖掘來(lái)獲得實(shí)體的向量嵌入,有效處理了短文本信息量缺乏的弊端,再通過(guò)Bert對(duì)實(shí)體及備選實(shí)體的實(shí)體名稱識(shí)別,將獲得的結(jié)果進(jìn)行分類預(yù)測(cè),確定概率最大的實(shí)體作為最終可信實(shí)體,其性能在2019年度全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)上表現(xiàn)卓越。
③海洋領(lǐng)域?qū)嶓w鏈接難點(diǎn)及技術(shù)分析
海洋領(lǐng)域的同一實(shí)體可能存在多種指稱,通過(guò)網(wǎng)絡(luò)搜索雖然可以解決部分?jǐn)?shù)據(jù)的實(shí)體指稱識(shí)別問(wèn)題,但一些專業(yè)化名詞可能需要更具權(quán)威的數(shù)據(jù)來(lái)源。另外,海洋文本數(shù)據(jù)相較于通用文本數(shù)據(jù)多有不足,并且海洋部分?jǐn)?shù)據(jù)庫(kù)可能無(wú)法實(shí)時(shí)更新,例如海洋生物命名等,因此在數(shù)據(jù)量較少時(shí),采用NeuPL模型反而要優(yōu)于預(yù)處理模型,另外也可采用數(shù)據(jù)增強(qiáng)的方法擴(kuò)充數(shù)據(jù)集,訓(xùn)練預(yù)處理模型再遷移到下游任務(wù)的方式,也會(huì)起到不俗的效果。
(2)知識(shí)合并
生成的知識(shí)庫(kù)數(shù)據(jù)可能存在數(shù)據(jù)不完善的情況,可以通過(guò)知識(shí)合并的方法將第三方的知識(shí)庫(kù)內(nèi)容或定期更新的結(jié)構(gòu)化數(shù)據(jù)補(bǔ)充進(jìn)己方構(gòu)建的知識(shí)庫(kù)中,一方面可以解決知識(shí)庫(kù)數(shù)據(jù)的單源主觀性,另一方面可以彌補(bǔ)知識(shí)庫(kù)內(nèi)容缺乏動(dòng)態(tài)更新性[82]。知識(shí)庫(kù)的合并可以從外部知識(shí)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)兩個(gè)方面進(jìn)行。
①合并外部數(shù)據(jù)庫(kù)
外部數(shù)據(jù)庫(kù)主要包括Wiki百科、DBpedia以及YAGO等含有海量數(shù)據(jù)的知識(shí)庫(kù),利用前文中涉及的數(shù)據(jù)抽取技術(shù),可以得到多種有效數(shù)據(jù),對(duì)這些數(shù)據(jù)的利用可以分為融合數(shù)據(jù)層和模型層兩步[83]。在數(shù)據(jù)層面的融合涵蓋實(shí)體指稱、關(guān)系等,其關(guān)鍵是完成實(shí)體、關(guān)系間冗余情況的處理,模型層面主要是將融合后的數(shù)據(jù)層融入到現(xiàn)存的知識(shí)庫(kù)。
數(shù)據(jù)層面的主要技術(shù)融合可以概括為以下步驟[84]:
步驟1實(shí)體匹配:多源數(shù)據(jù)對(duì)于實(shí)體名稱及概念的表達(dá)可能存在差異性,利用實(shí)體匹配統(tǒng)一表達(dá)方式以及合并多個(gè)相同描述實(shí)體可以消除這種差異性,在去除冗余數(shù)據(jù)后能夠使多源數(shù)據(jù)的表達(dá)內(nèi)容統(tǒng)一,增強(qiáng)實(shí)體的可理解性。
步驟2知識(shí)評(píng)估:新增知識(shí)可能存在某些問(wèn)題,為保證知識(shí)圖譜內(nèi)知識(shí)數(shù)據(jù)的合理性與準(zhǔn)確性,必須對(duì)新添數(shù)據(jù)采用準(zhǔn)確性驗(yàn)證與合理性評(píng)估,一般方法是賦予新加入知識(shí)可信度來(lái)進(jìn)行篩選。
步驟3知識(shí)合并:經(jīng)以上步驟融合好的數(shù)據(jù)層就融入到現(xiàn)有的知識(shí)庫(kù),完成外部數(shù)據(jù)庫(kù)的合并。
②合并關(guān)系數(shù)據(jù)庫(kù)
在知識(shí)庫(kù)中,高質(zhì)量的數(shù)據(jù)必不可少,這些數(shù)據(jù)往往來(lái)源于自建關(guān)系數(shù)據(jù)庫(kù),通過(guò)合并這些數(shù)據(jù),可以使整體知識(shí)圖譜的質(zhì)量得到有效提升,在數(shù)據(jù)庫(kù)定期更新的情況下,對(duì)這些數(shù)據(jù)庫(kù)進(jìn)行周期性合并就可以做到知識(shí)圖譜的動(dòng)態(tài)更新,進(jìn)一步增加自建知識(shí)圖譜的質(zhì)量與新穎性。
結(jié)構(gòu)化數(shù)據(jù)不可以直接融入知識(shí)圖譜中,通過(guò)將關(guān)系數(shù)據(jù)庫(kù)轉(zhuǎn)換為資源描述框架(resource description framework,RDF)的三元組形式可以解決。當(dāng)前能夠?qū)㈥P(guān)系數(shù)據(jù)庫(kù)轉(zhuǎn)化為RDF的方法主要分為直接映射與R2RML兩種[85],其中直接映射能夠?qū)㈥P(guān)系數(shù)據(jù)庫(kù)與數(shù)據(jù)輸出為RDF圖,采用的是數(shù)據(jù)庫(kù)中列表名稱與字段名稱對(duì)應(yīng)到RDF圖中類術(shù)語(yǔ)與謂詞術(shù)語(yǔ),但是這種直接映射的方式無(wú)法將數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)映射到用戶自定義的本體上。R2RML映射(RDB to RDF mapping language)其主要是將涵蓋基本表、視圖與R2RML視圖的每一個(gè)邏輯表借由三元組映射表映射至RDF,具備了更高的靈活性,并且可以制定用戶自己的映射規(guī)則。
1.2.4 知識(shí)圖譜推理
通過(guò)數(shù)據(jù)的抽取以及知識(shí)的融合,可以得到現(xiàn)有數(shù)據(jù)的知識(shí)圖譜,但此時(shí)的知識(shí)圖譜尚不健全,其中的大量數(shù)據(jù)可以被二次開(kāi)發(fā),知識(shí)推理的任務(wù)就是從現(xiàn)有數(shù)據(jù)推理出圖譜中所蘊(yùn)含且未知的知識(shí),可以分為傳統(tǒng)方法、基于幾何運(yùn)算方法以及深度學(xué)習(xí)方法[86]。
(1)傳統(tǒng)方法
早期因受限于低性能的設(shè)備及技術(shù),多利用本體推理[87]、邏輯推理[88],這些推理技術(shù)需要嚴(yán)格的格式要求,且大多高度依賴于推理工具的表現(xiàn),人工操作的復(fù)雜程度也較高,不利于大規(guī)模地推廣使用。知識(shí)圖譜NELL[89]采用手寫(xiě)規(guī)則推理算法對(duì)文本數(shù)據(jù)中的三元組數(shù)據(jù)進(jìn)行抽取,能夠快速建立起大規(guī)模的知識(shí)圖譜,但這類圖譜數(shù)據(jù)準(zhǔn)確性存在問(wèn)題,可能不利于推理的展開(kāi)。為了解決推理準(zhǔn)確性的問(wèn)題,路徑排序算法[90]應(yīng)運(yùn)而生,該方法基于圖結(jié)構(gòu),采用了隨機(jī)游走的思想,通過(guò)實(shí)體節(jié)點(diǎn)間存在的路徑作為特征來(lái)進(jìn)行推理預(yù)測(cè),能夠很好地解決知識(shí)圖譜過(guò)多噪聲對(duì)推理起到干擾的情況。但以上這些技術(shù)都要求對(duì)相關(guān)特征進(jìn)行顯示定義,有賴于人工制定推理步驟,耗時(shí)耗力。
(2)幾何運(yùn)算法
基于幾何運(yùn)算法能夠平移或旋轉(zhuǎn)知識(shí)圖譜中的實(shí)體與關(guān)系,從而映射到低維的連續(xù)向量空間,使得算法自動(dòng)捕捉和推理相關(guān)特征,省去了繁瑣的人工操作。最具代表性的圖嵌入模型TransE[91]將向量化后的(頭實(shí)體、關(guān)系、尾實(shí)體)三元組之間的合理性評(píng)估視作為頭實(shí)體向量A到尾實(shí)體向量B的翻譯問(wèn)題,如若A經(jīng)過(guò)基于關(guān)系向量的變換能夠得到B,就證明該三元組能夠被知識(shí)圖譜正確響應(yīng)。
但TransE對(duì)于一對(duì)多、多對(duì)一以及多對(duì)多關(guān)系的情況無(wú)法很好地處理。TransH[92]將頭實(shí)體向量與尾實(shí)體向量投影到同一平面上,再進(jìn)行頭實(shí)體向量A到尾實(shí)體向量B的翻譯,彌補(bǔ)了TransE的不足,但TransH模糊了實(shí)體向量空間和關(guān)系向量空間,籠統(tǒng)地將分屬不同概念的實(shí)體與關(guān)系置入同一空間,導(dǎo)致表達(dá)效果有所欠缺。TransR[93]拆分了實(shí)體向量空間與關(guān)系向量空間,通過(guò)對(duì)不同空間進(jìn)行差異化的分析操作,進(jìn)一步提升了表達(dá)能力,但是進(jìn)一步增加了參數(shù)量。為減少TransR的參數(shù)量,TransD[94]將實(shí)體、關(guān)系相關(guān)向量做外積計(jì)算來(lái)動(dòng)態(tài)得到關(guān)系投影矩陣,在減少參數(shù)量的同時(shí)最大限度地保留了其表示能力。
以上模型采取的是將頭實(shí)體向量經(jīng)過(guò)關(guān)系向量翻譯得到尾實(shí)體向量的操作,但這種類型的模型無(wú)法細(xì)分多關(guān)系語(yǔ)義,同一關(guān)系可能在不同的頭實(shí)體與尾實(shí)體的連接中有著截然不同的語(yǔ)義,TransG[95]采取貝葉斯非參數(shù)無(wú)限混合模型(Bayesian non-parametric infinite mixture model),將一個(gè)關(guān)系向量生成多個(gè)翻譯內(nèi)容,再依據(jù)三元組表達(dá)的特定語(yǔ)義獲取其中的最優(yōu)結(jié)果,能夠很好地分析關(guān)系中存在的多語(yǔ)義,提升了三元組的分類精準(zhǔn)度,在同時(shí)期的鏈接預(yù)測(cè)與三元組分類任務(wù)處理結(jié)果最優(yōu)。
TransG模型通過(guò)在幾何空間進(jìn)行平移的任務(wù),其成功取決于建模以及關(guān)系間模式的相關(guān)能力,在面對(duì)對(duì)稱、逆以及合成關(guān)系模式時(shí)效果欠缺。RotatE[96]旋轉(zhuǎn)模型利用向量空間中頭實(shí)體到尾實(shí)體的旋轉(zhuǎn)定義每個(gè)關(guān)系,能夠做到對(duì)多種關(guān)系模型進(jìn)行建模及推理,在WN18PR與FB15k-237數(shù)據(jù)集上的表現(xiàn)超越了過(guò)往的模型。
(3)深度學(xué)習(xí)法
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為深度學(xué)習(xí)中最具代表性的結(jié)構(gòu)之一,能夠?qū)W習(xí)深層次的特征,ConvE[97]將CNN引入到知識(shí)圖譜推理中,運(yùn)用卷積網(wǎng)絡(luò)捕捉深層次的實(shí)體間的關(guān)系缺失,彌補(bǔ)了以往鏈路預(yù)測(cè)的深度欠缺性,但這種方法僅僅考慮了局部不同維度的關(guān)系,而忽略了全局相同維度下的關(guān)系。ConvKB[98]將頭實(shí)體、關(guān)系以及尾實(shí)體以列向量矩陣形式呈現(xiàn),并送入卷積層,再經(jīng)由卷積層的多個(gè)濾波器來(lái)產(chǎn)生多種特征,該方法考慮了實(shí)體與關(guān)系嵌入的全局關(guān)系,在WN18PR與FB15k-237兩個(gè)基準(zhǔn)數(shù)據(jù)集上做到了領(lǐng)先。
由于CNN處理模糊性語(yǔ)句時(shí)效果欠缺且不斷地池化會(huì)引起重要信息的丟失,為保證重要信息的完整性,Vu等人[99]又將膠囊網(wǎng)絡(luò)[100]應(yīng)用于知識(shí)推理,提出CapsE模型,將每一個(gè)三元組都表示為矩陣,通過(guò)卷積學(xué)習(xí)其特征后構(gòu)建各自的低級(jí)膠囊網(wǎng)絡(luò),再動(dòng)態(tài)路由到高級(jí)膠囊網(wǎng)絡(luò),由于膠囊網(wǎng)絡(luò)輸出結(jié)果為向量,依托路由產(chǎn)生的向量長(zhǎng)度就可以對(duì)三元組進(jìn)行打分。其結(jié)果在相同基準(zhǔn)數(shù)據(jù)集的表現(xiàn)超過(guò)了ConvKB。
(4)海洋領(lǐng)域知識(shí)圖譜推理的難點(diǎn)
海洋領(lǐng)域涵蓋范圍廣,群多子領(lǐng)域間也存在交叉情況,在利用所構(gòu)建好的圖譜知識(shí)進(jìn)行擴(kuò)充推理時(shí)難免出現(xiàn)大量干擾,又因本身數(shù)據(jù)集規(guī)模與來(lái)源的局限性,因此應(yīng)用于海洋領(lǐng)域的知識(shí)推理可能會(huì)收效甚微。
為應(yīng)對(duì)海洋專業(yè)領(lǐng)域知識(shí)圖譜稀缺的情況,阮彤等人[101]利用數(shù)據(jù)驅(qū)動(dòng)的增量方式構(gòu)建了海洋領(lǐng)域的中文知識(shí)圖譜,將Word文本數(shù)據(jù)以及關(guān)系數(shù)據(jù)庫(kù)分別利用Word封裝器以及D2R映射工具完成知識(shí)子圖的轉(zhuǎn)化,并結(jié)合圖書(shū)館電子資源成功實(shí)現(xiàn)了語(yǔ)義檢索,極大提升了海洋類信息的搜尋速度與精準(zhǔn)度。
隨著各國(guó)對(duì)海洋領(lǐng)域的持續(xù)重視,針對(duì)海運(yùn)、船運(yùn)產(chǎn)業(yè)鏈等重點(diǎn)海洋數(shù)據(jù)信息的分析利用就顯得尤為重要,以往的船舶數(shù)據(jù)檢測(cè)系統(tǒng)僅僅是簡(jiǎn)單地核查檢索詞與數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)之間的關(guān)聯(lián)程度,且每個(gè)數(shù)據(jù)相互之間并無(wú)聯(lián)系,無(wú)法提供準(zhǔn)確且便于理解的知識(shí)數(shù)據(jù)。為快速定位航線、港口、運(yùn)營(yíng)企業(yè)等重要船舶信息,李琦[102]利用知識(shí)圖譜對(duì)航線、港口等數(shù)據(jù)進(jìn)行了整合匹配,使得船舶信息查詢系統(tǒng)更加智能化和便捷化。
任夢(mèng)星[103]研究發(fā)現(xiàn)鮮有關(guān)于艦船知識(shí)的深入探究,導(dǎo)致相關(guān)人員面對(duì)數(shù)據(jù)分布稀缺的艦船相關(guān)知識(shí)往往無(wú)從下手,數(shù)據(jù)得不到有效的利用。為最大化利用艦船類型、行駛軌跡等重要數(shù)據(jù)信息,任夢(mèng)星構(gòu)建了一個(gè)關(guān)于艦船信息的垂直知識(shí)圖譜,將數(shù)據(jù)輔以Neo4j圖數(shù)據(jù)庫(kù)來(lái)儲(chǔ)存,并輔以知識(shí)問(wèn)答系統(tǒng)作為知識(shí)圖譜與查詢?nèi)藛T的交互,大大提高了艦船工作人員的知識(shí)獲取速度。
海洋領(lǐng)域當(dāng)前針對(duì)熱點(diǎn)數(shù)據(jù)的研究主要集中在兩方面:文獻(xiàn)數(shù)據(jù)分析以及海洋垂直知識(shí)圖譜構(gòu)建。從文獻(xiàn)分析角度來(lái)說(shuō),各個(gè)文獻(xiàn)數(shù)據(jù)中蘊(yùn)含著大批的未開(kāi)發(fā)知識(shí)數(shù)據(jù),但文獻(xiàn)之間的聯(lián)系較為松散,平常的文獻(xiàn)調(diào)研分析無(wú)法做到高效且準(zhǔn)確地找出海量文獻(xiàn)間的關(guān)聯(lián),利用知識(shí)圖譜的可視化工具可以快速提取出當(dāng)前研究熱點(diǎn)以及關(guān)注熱點(diǎn)最為密切的作者和機(jī)構(gòu)等信息,有利于海洋領(lǐng)域研究者進(jìn)行熱點(diǎn)的獲取與追蹤,能夠大大提高其對(duì)實(shí)時(shí)熱點(diǎn)研究的敏感度。另外除去目前可被直接觀測(cè)到的海島數(shù)據(jù)、海浪數(shù)據(jù)、海洋災(zāi)害數(shù)據(jù)等顯性海洋數(shù)據(jù)外,海洋領(lǐng)域還有相當(dāng)一部分有待開(kāi)發(fā)的隱性數(shù)據(jù),這些數(shù)據(jù)不僅內(nèi)部間存在著難以發(fā)現(xiàn)的關(guān)聯(lián)性,甚至數(shù)據(jù)間也會(huì)彼此影響,有些是直接聯(lián)系,例如海底火山的爆發(fā)會(huì)對(duì)相關(guān)海域的海浪造成影響,還有些可能是多跳聯(lián)系,由于數(shù)據(jù)的海量性及復(fù)雜性,依托人工去梳理這種隱性聯(lián)系是不切實(shí)際的。通過(guò)構(gòu)建海洋領(lǐng)域子領(lǐng)域的知識(shí)圖譜,可以有效梳理隱性關(guān)系,為智能化精準(zhǔn)分析提供了可能。
本文首先總結(jié)了知識(shí)圖譜可視化在海洋文獻(xiàn)的應(yīng)用,為后續(xù)海洋領(lǐng)域相關(guān)研究者進(jìn)行熱點(diǎn)分析與研究提供分析基礎(chǔ)。其次探究了海洋垂直領(lǐng)域的流程與技術(shù),從半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)抽取入手,根據(jù)傳統(tǒng)方法的改進(jìn)演變,分析介紹了目前的關(guān)鍵技術(shù),并探究了海洋領(lǐng)域?qū)τ谥R(shí)圖譜的結(jié)合應(yīng)用。希望可以為知識(shí)圖譜相關(guān)技術(shù)在海洋領(lǐng)域的進(jìn)一步應(yīng)用提供理論支撐,同時(shí)為海洋領(lǐng)域相關(guān)工作者提供實(shí)際參考。