陳寶發(fā), 任 妮
(1.江蘇大學(xué)科技信息研究所,江蘇鎮(zhèn)江 212013; 2.江蘇省農(nóng)業(yè)科學(xué)院信息中心,江蘇南京 210014)
農(nóng)業(yè)作為國家的第一產(chǎn)業(yè),是國民經(jīng)濟(jì)中一個(gè)重要的產(chǎn)業(yè)部門,支撐著國民經(jīng)濟(jì)的建設(shè)和發(fā)展,農(nóng)業(yè)學(xué)者則是一個(gè)國家農(nóng)業(yè)發(fā)展水平的重要推動(dòng)力,在農(nóng)業(yè)科技的生產(chǎn)創(chuàng)造、傳播和應(yīng)用等方面發(fā)揮著不可替代的作用。然而農(nóng)業(yè)學(xué)者的專業(yè)領(lǐng)域與科研成果卻散落在互聯(lián)網(wǎng)的各個(gè)角落,并沒有完善的一體化組織系統(tǒng),不利于農(nóng)業(yè)科研和生產(chǎn)活動(dòng)的知識回顧與創(chuàng)新。隨著學(xué)術(shù)信息化建設(shè)的不斷進(jìn)步,互聯(lián)網(wǎng)上公開的學(xué)者信息也在不斷完善,人們不僅對搜索不同類型的學(xué)術(shù)信息感興趣,如論文、期刊、作者等信息,對基于語義的信息搜索需求也日益增長,如結(jié)構(gòu)化的學(xué)者簡介、學(xué)術(shù)成果的主題分類等?,F(xiàn)有的學(xué)術(shù)信息檢索工具,如中國知網(wǎng)、百度學(xué)術(shù)和科研之友等平臺大多只是對學(xué)術(shù)成果的簡單羅列,而缺少基于文獻(xiàn)細(xì)粒度的語義信息;對學(xué)者信息的展示往往缺少簡介信息,或是未能將簡介信息結(jié)構(gòu)化、立體化地組織起來,最終導(dǎo)致不能建立起統(tǒng)一的學(xué)術(shù)網(wǎng)絡(luò)。本體(ontology)這一概念源自哲學(xué)領(lǐng)域,是對客觀世界本質(zhì)及其規(guī)律的抽象表示,20世紀(jì)90年代以來,其概念逐漸被引入人工智能、知識工程、圖書情報(bào)等領(lǐng)域。Perez等認(rèn)為,本體可以用于在計(jì)算機(jī)領(lǐng)域表示知識,包含類、關(guān)系、公理、函數(shù)和實(shí)例5種要素[1],能夠規(guī)范特定范圍的基本概念、屬性、概念間的關(guān)系以及屬性和關(guān)系的約束規(guī)則[2]。在學(xué)術(shù)檢索系統(tǒng)中運(yùn)用本體來表示知識,可以統(tǒng)一學(xué)者信息的組織形式,且在學(xué)者和學(xué)者之間、學(xué)者和研究成果之間建立起語義關(guān)聯(lián),為基于語義的檢索需求提供支撐。近年來,國內(nèi)外學(xué)者在生物醫(yī)學(xué)[3]、人文歷史[4]、商業(yè)智能[5]、農(nóng)業(yè)[6]等領(lǐng)域開展了大量本體構(gòu)建研究。在學(xué)術(shù)領(lǐng)域,Tang等擴(kuò)展FOAF本體,針對機(jī)器學(xué)習(xí)領(lǐng)域提出基于條件隨機(jī)場算法的科研人員檔案抽取方法[7]。馬翠嫦等提出一種網(wǎng)絡(luò)學(xué)術(shù)文檔細(xì)粒度聚合本體構(gòu)建的方法,可以為網(wǎng)絡(luò)文獻(xiàn)聚合單元的細(xì)粒度組織提供參考[8]。鄭楊等研究現(xiàn)有的學(xué)者檢索工具,并對學(xué)者智能目錄體系的構(gòu)建提出建議[9]。然而當(dāng)前的研究大多僅針對特定的學(xué)科領(lǐng)域建立本體模型,鮮有對農(nóng)業(yè)領(lǐng)域?qū)W者和科研成果進(jìn)行本體化組織,且未能將學(xué)者信息和學(xué)術(shù)成果信息在語義關(guān)聯(lián)的基礎(chǔ)上進(jìn)行有機(jī)結(jié)合。因此,本研究對長三角地區(qū)農(nóng)業(yè)學(xué)者的簡介信息進(jìn)行分析與處理,從文本數(shù)據(jù)中抽象出概念體系,提出農(nóng)業(yè)學(xué)者的本體設(shè)計(jì)模式,并與學(xué)術(shù)文獻(xiàn)的組織體系相結(jié)合,通過實(shí)證研究完成面向農(nóng)業(yè)學(xué)者及文獻(xiàn)細(xì)粒度的本體構(gòu)建,形成可以復(fù)用至其他學(xué)科領(lǐng)域的學(xué)術(shù)本體模型,進(jìn)而為領(lǐng)域?qū)W者知識圖譜的構(gòu)建提供模式層框架。
學(xué)者本體構(gòu)建是以相關(guān)學(xué)者的工作實(shí)踐經(jīng)歷為基礎(chǔ),結(jié)合學(xué)者現(xiàn)有的學(xué)術(shù)成果,形成客觀明確的知識表示規(guī)范體系,并以結(jié)構(gòu)化的形式,通過本體描述語言和可視化工具最終實(shí)現(xiàn)學(xué)者本體的建模工作。
在本體構(gòu)建方面,目前較經(jīng)典的方法有骨架法、METHONTOLOGY法[10]、七步法[11]等,這些方法通常來源于具體的本體開發(fā)項(xiàng)目。但這些方法尚不符合軟件工程的生命周期演進(jìn)思想,也缺乏本體的質(zhì)量評估過程[12],導(dǎo)致不能滿足知識圖譜不斷更新的需求。因此,本研究根據(jù)農(nóng)業(yè)學(xué)者信息的屬性特征,以網(wǎng)站數(shù)據(jù)庫Wikidata和Schema等關(guān)于研究人員的本體定義為參考,并加入實(shí)例填充、驗(yàn)證評估與優(yōu)化迭代環(huán)節(jié),進(jìn)而確定農(nóng)業(yè)學(xué)者本體的構(gòu)建流程(圖1)。
(1)確定本體的領(lǐng)域和范圍。構(gòu)建本體的第一步首先是確定本體的應(yīng)用領(lǐng)域和覆蓋范圍。本研究構(gòu)建的學(xué)者本體是面向長三角地區(qū)的農(nóng)業(yè)學(xué)者簡介信息,并結(jié)合這些學(xué)者所發(fā)表的文獻(xiàn)信息,以實(shí)現(xiàn)學(xué)者信息的結(jié)構(gòu)化和語義化組織,進(jìn)而為后續(xù)構(gòu)建知識圖譜定義知識體系。
(2)構(gòu)建本體框架。該階段的主要目標(biāo)是對已獲取的領(lǐng)域內(nèi)信息進(jìn)行分析總結(jié),抽象出領(lǐng)域內(nèi)的核心概念,定義類和類的結(jié)構(gòu),并確定類的對象屬性和數(shù)據(jù)屬性,從而形成一個(gè)完整的本體結(jié)構(gòu)模型。本研究參考Wikidata等的本體類[13-14],結(jié)合長三角地區(qū)農(nóng)業(yè)學(xué)者的信息和文獻(xiàn)信息,定義相關(guān)的核心類以及屬性,最終完成農(nóng)業(yè)學(xué)者信息的本體框架。
(3)本體形式化和可視化。本體框架構(gòu)建完成后,為了使計(jì)算機(jī)可以理解和存儲(chǔ)本體,應(yīng)該使用形式化的語言實(shí)現(xiàn)該本體,如RDF、OWL等本體描述語言,以增強(qiáng)本體的語義表達(dá)能力,此外還可以使用Protégé等工具實(shí)現(xiàn)本體的可視化呈現(xiàn)。
(4)創(chuàng)建實(shí)例。實(shí)例是領(lǐng)域本體中最小的概念,也是體現(xiàn)領(lǐng)域知識的重要組成部分。為了實(shí)現(xiàn)領(lǐng)域本體的知識服務(wù)功能,本研究基于設(shè)計(jì)完成的農(nóng)業(yè)學(xué)者領(lǐng)域本體,采用深度學(xué)習(xí)的方法對獲取到的長三角地區(qū)農(nóng)業(yè)學(xué)者主頁信息進(jìn)行實(shí)體抽取,包括學(xué)者數(shù)據(jù)獲取、實(shí)體標(biāo)注、模型訓(xùn)練、實(shí)體抽取等步驟,并通過Neo4j圖數(shù)據(jù)庫存儲(chǔ)學(xué)者實(shí)體數(shù)據(jù)。
(5)本體驗(yàn)證與評估。當(dāng)本體初步構(gòu)建完成后,須要對本體進(jìn)行評估,以保證其能夠?qū)r(nóng)業(yè)學(xué)者的信息結(jié)構(gòu)體系進(jìn)行充分有效的描述,并能夠識別出本體中存在的冗余部分,從而進(jìn)一步完善本體的概念和屬性。
(6)本體優(yōu)化迭代更新。隨著時(shí)間的推移,領(lǐng)域內(nèi)的知識結(jié)構(gòu)可能會(huì)出現(xiàn)新的變化。所以,本體構(gòu)建也是動(dòng)態(tài)變化的過程,在出現(xiàn)新的領(lǐng)域知識類別時(shí),應(yīng)該重新對領(lǐng)域本體的結(jié)構(gòu)框架進(jìn)行分析與調(diào)整,從而實(shí)現(xiàn)本體的更新迭代,以滿足其在新環(huán)境中的適用性。
本研究所構(gòu)建農(nóng)業(yè)學(xué)者本體的目標(biāo)是根據(jù)農(nóng)業(yè)學(xué)者的學(xué)術(shù)生涯,抽象出能夠完整描述學(xué)者信息的核心概念,再結(jié)合學(xué)者的學(xué)術(shù)成果信息建立可以復(fù)用的領(lǐng)域?qū)W者本體模型。本研究根據(jù)上述提出的構(gòu)建流程,首先確定農(nóng)業(yè)學(xué)者本體的領(lǐng)域和范圍,再定義本體的類和屬性,建立本體框架,并使用OWL語言和Protégé工具實(shí)現(xiàn)本體的保存與管理,最后對本體質(zhì)量進(jìn)行評估。
本研究構(gòu)建的本體為后期建立農(nóng)業(yè)學(xué)者知識圖譜提供模式層架構(gòu),并以此建立面向長三角地區(qū)農(nóng)業(yè)從業(yè)人員的知識服務(wù)平臺。因此,該領(lǐng)域本體的覆蓋范圍為長三角地區(qū)的農(nóng)業(yè)學(xué)者信息和文獻(xiàn)信息。為了該目標(biāo),需要從學(xué)者主頁、百科網(wǎng)頁等渠道獲取長三角地區(qū)農(nóng)業(yè)學(xué)者的簡介信息,并從簡介信息中抽象出可以描述學(xué)者的核心類和屬性信息,如學(xué)者類、機(jī)構(gòu)類、職位類等,屬性信息有畢業(yè)院校、工作單位、研究方向等。此外,還需要將篇名、關(guān)鍵詞、研究方法等文獻(xiàn)屬性嵌入學(xué)者本體。最終實(shí)現(xiàn)由學(xué)者相關(guān)概念和文獻(xiàn)描述信息構(gòu)成的農(nóng)業(yè)學(xué)者領(lǐng)域本體。
2.2.1 定義類和類的結(jié)構(gòu) 目前有3種常用類的定義方法,分別是自頂向下、自底向上和二者結(jié)合定義[13]。其中,使用最多的方法是自頂向下構(gòu)建,該方法首先從頂層的抽象概念入手,再逐漸細(xì)化;自底向上的方法則是從具體類別著手,同時(shí)對概念逐漸歸類抽象,以形成完整的結(jié)構(gòu);二者結(jié)合定義可以先找到明確的具體概念,同時(shí)再對其進(jìn)行泛華和細(xì)化。本研究的學(xué)者本體采用自頂向下的構(gòu)建方法,遵循從抽象到一般,再到具體概念的3層結(jié)構(gòu)。根據(jù)對獲取的長三角農(nóng)業(yè)學(xué)者文本信息進(jìn)行分析,可以將該本體的最頂層抽象類定義為參與者類、對象類和事件類,將這些抽象概念進(jìn)一步具體化,可以定義為5個(gè)一級子類(核心類)和8個(gè)二級子類(圖2)。
本研究構(gòu)建的本體中最頂層的抽象概念是參與者類、對象類和事件類,具備一定的通用性。而根據(jù)農(nóng)業(yè)學(xué)者本體的個(gè)性化需求,可以將上述3種抽象概念細(xì)化為學(xué)者類、機(jī)構(gòu)類、職稱類、研究方向類、文獻(xiàn)類5種核心類。本研究針對農(nóng)業(yè)學(xué)者的本體構(gòu)建,所以將學(xué)者定義為核心類,其實(shí)體可以具體為長三角地區(qū)的農(nóng)業(yè)學(xué)者。
在該本體中,對象類分為機(jī)構(gòu)類、職稱類、研究方向類3個(gè)核心類。其中,機(jī)構(gòu)類主要描述學(xué)者的畢業(yè)院校和所在單位,所以可以分為學(xué)校、科研院所、企業(yè)3個(gè)子類;職稱是區(qū)別科學(xué)技術(shù)人員的等級稱號,在農(nóng)業(yè)學(xué)者本體中創(chuàng)建職稱核心類可以豐富學(xué)者的描述信息,包含高級、中級、初級職稱3個(gè)子類;研究方向是學(xué)者的重要標(biāo)簽,能夠體現(xiàn)該學(xué)者當(dāng)前或歷史時(shí)期的主要成果所在領(lǐng)域,所以將研究方向類確定為該本體的核心類。
事件類是由參與者類的實(shí)體執(zhí)行的主動(dòng)行為,在該本體中可以總結(jié)為農(nóng)業(yè)學(xué)者在特定時(shí)間、單位和期刊發(fā)表論文的行為,所以將文獻(xiàn)類定義為本體的核心類,即事件類的一級子類。文獻(xiàn)類通過外部特征和內(nèi)部特征描述文獻(xiàn)的關(guān)鍵信息,并基于文本細(xì)粒度分析得出文獻(xiàn)的主題分類,能夠更加細(xì)致地刻畫學(xué)者的研究領(lǐng)域。此外,根據(jù)文獻(xiàn)發(fā)表的渠道不同,文獻(xiàn)類包含會(huì)議論文和期刊論文2個(gè)子類。
2.2.2 定義類的屬性 在本體框架中定義類和類的結(jié)構(gòu)后,應(yīng)該定義組成類的不同屬性以及類與類之間的關(guān)系,以完善類的內(nèi)部數(shù)據(jù)結(jié)構(gòu),從而保證類的獨(dú)特性。本體中類的屬性包括對象屬性和數(shù)據(jù)屬性。其中對象屬性表示類與類之間的關(guān)系,其屬性值必須為另一個(gè)類;數(shù)據(jù)屬性則表示類的實(shí)例對象所具備的特征,屬性值為數(shù)據(jù)類型且只存在于類本身。通過參考Wikidata中researcher類的屬性定義以及數(shù)據(jù)源中學(xué)者簡介信息的共性描述,最終確定5個(gè)對象屬性和7個(gè)數(shù)據(jù)屬性(表1)。
表1 農(nóng)業(yè)學(xué)者本體屬性
在該本體中,以學(xué)者類為中心建立類的對象屬性和數(shù)據(jù)屬性,對象屬性表示學(xué)者類與其他類之間的關(guān)系,包括畢業(yè)院校、工作單位、職稱、研究方向和發(fā)表文獻(xiàn),其定義域?yàn)閷W(xué)者類,值域分別為機(jī)構(gòu)類、職稱類、研究方向類和文獻(xiàn)類。數(shù)據(jù)屬性包括學(xué)者姓名、編號、學(xué)歷、職務(wù)、郵箱、標(biāo)簽以及個(gè)人簡介,其中學(xué)者標(biāo)簽描述是對學(xué)者文獻(xiàn)進(jìn)行文本細(xì)粒度分析得出的興趣領(lǐng)域,能夠總結(jié)學(xué)者科研成果的方向,有利于建立基于標(biāo)簽的學(xué)者推薦系統(tǒng)。
此外,本研究還對文獻(xiàn)類的數(shù)據(jù)屬性進(jìn)行定義。通過復(fù)用都柏林核心元素集(dublin core element set,DC)關(guān)于信息資源的元數(shù)據(jù)構(gòu)成,并從農(nóng)業(yè)學(xué)者本體構(gòu)建的實(shí)際需求出發(fā),最終定義文獻(xiàn)類的16個(gè)數(shù)據(jù)屬性(表2)。包括文獻(xiàn)編號(PaperID)、題名(PaperTitle)、作者編號(AuthorID)、作者(Author)、所屬單位(Organ)、文獻(xiàn)來源(Source)、關(guān)鍵詞(Keywords)、摘要(Abstract)、發(fā)表時(shí)間(Pubtime)、發(fā)表年份(Year)、卷(Volume)、期(Issue)、開始頁碼(Page_start)、結(jié)束頁碼(Page_end)、DOI碼(DOI)、研究主題(ResearchTopic)。其中,文獻(xiàn)編號是用于描述文獻(xiàn)的唯一標(biāo)志,是文獻(xiàn)數(shù)據(jù)庫的主鍵;作者編號是與學(xué)者數(shù)據(jù)進(jìn)行關(guān)聯(lián)的標(biāo)志符,因?yàn)槲墨I(xiàn)存在多個(gè)作者,所以數(shù)據(jù)類型為列表;研究主題是基于文獻(xiàn)內(nèi)容的特征詞提取得出的文獻(xiàn)主題分布。
表2 文獻(xiàn)類數(shù)據(jù)屬性
最后,綜合農(nóng)業(yè)學(xué)者的對象屬性和數(shù)據(jù)屬性,并通過“發(fā)表文獻(xiàn)”屬性將學(xué)者類與文獻(xiàn)類進(jìn)行關(guān)聯(lián),進(jìn)而形成完整的農(nóng)業(yè)學(xué)者本體框架(圖3)。
在明確定義農(nóng)業(yè)學(xué)者本體類和屬性的基礎(chǔ)上,為實(shí)現(xiàn)本體在計(jì)算機(jī)中的存儲(chǔ)、更新與復(fù)用,應(yīng)該使用統(tǒng)一的本體描述語言對本體進(jìn)行形式化描述。OWL是W3C Web本體工作組設(shè)計(jì)的一種知識表示語言,與其他描述語言相比(如XML、RDF),其優(yōu)勢是表示知識便于被計(jì)算機(jī)所理解和應(yīng)用,且擁有更豐富的推理方法和詞匯表。所以,本研究采用OWL語言對農(nóng)業(yè)學(xué)者本體進(jìn)行形式化表示,并使用Protégé工具實(shí)現(xiàn)本體的可視化。
首先對農(nóng)業(yè)學(xué)者本體中的類使用OWL語言進(jìn)行描述,代碼示例見圖4。在OWL中使用Class來表示類,如創(chuàng)建學(xué)者類,將其英文標(biāo)簽設(shè)置為“Scholar”,中文標(biāo)簽設(shè)置為“學(xué)者”,并繼承FOAF詞表[15]中的人物類(foaf:Person),以實(shí)現(xiàn)語義層次的知識共享。
對象屬性在OWL中以O(shè)bjectProperty表示,用于創(chuàng)建類與類之間的關(guān)系。 如使用OWL語言創(chuàng)建對象屬性“發(fā)表文獻(xiàn)(hasPublished)”,設(shè)置其定義域(domain)為學(xué)者類,值域(range)為文獻(xiàn)類,并與文獻(xiàn)類的作者屬性(hasAuthor)形成相對關(guān)系(inverseOf),代碼見圖5。
數(shù)據(jù)屬性在OWL中以DataProperty表示,用于展示類的實(shí)例屬性值,如創(chuàng)建文獻(xiàn)類的“摘要(Abstract)”屬性,其定義域(domain)設(shè)置為文獻(xiàn)類,并以range標(biāo)簽設(shè)置數(shù)據(jù)類型為字符串(string),代碼見圖6。
將使用OWL語言編輯完成的農(nóng)業(yè)學(xué)者本體文件導(dǎo)入Protégé軟件,利用OntoGraph功能進(jìn)行本體的可視化展示。由圖7可知,實(shí)線部分為類的層級結(jié)構(gòu)關(guān)系,其中學(xué)者、文獻(xiàn)、職稱、機(jī)構(gòu)和研究方向均為超類“Thing”的子類;虛線為屬性關(guān)系,展示學(xué)者與其他類的對象屬性,其中文獻(xiàn)和學(xué)者定義了相對關(guān)系。
本研究通過scrapy爬蟲框架,從農(nóng)業(yè)科學(xué)院官網(wǎng)、農(nóng)科機(jī)構(gòu)知識庫聯(lián)盟等渠道獲取長三角地區(qū)江蘇省、浙江省、安徽省、上海市農(nóng)業(yè)科學(xué)院的專家學(xué)者信息為數(shù)據(jù)源,剔除部分缺失無效信息,共得到學(xué)者信息1 022條。此外,以作者和機(jī)構(gòu)為檢索詞,對知網(wǎng)上的相關(guān)學(xué)者論文進(jìn)行檢索,共下載學(xué)者文獻(xiàn)數(shù)據(jù)52 000條。
由于數(shù)據(jù)源的學(xué)者信息來源多樣,多數(shù)為非結(jié)構(gòu)化文本數(shù)據(jù),且篇幅差異較大,所以本研究對學(xué)者的簡介信息進(jìn)行相應(yīng)的刪減,使篇幅保持在300字以內(nèi),以便于后續(xù)實(shí)體抽取任務(wù)的開展。下載的文獻(xiàn)數(shù)據(jù)為CSV格式,通過python腳本將其轉(zhuǎn)化為json格式,并去除存在的換行符、空格等特殊符號。
根據(jù)定義的學(xué)者本體,本研究通過阿里云NLP自學(xué)習(xí)平臺對學(xué)者文本信息進(jìn)行標(biāo)注,標(biāo)注的實(shí)體主要包括單位、二級單位、研究領(lǐng)域、教育、姓名、職稱、時(shí)間、職務(wù)、郵箱共9類實(shí)體。為了將數(shù)據(jù)輸入訓(xùn)練模型,需要對學(xué)者的文本數(shù)據(jù)進(jìn)行標(biāo)簽化處理,本研究采用BMEO標(biāo)注法對上述已標(biāo)注實(shí)體進(jìn)行標(biāo)簽轉(zhuǎn)換(表3)。
表3 學(xué)者文本標(biāo)注示例
將標(biāo)注完成的數(shù)據(jù)按照8 ∶ 2的比例構(gòu)建訓(xùn)練集和測試集,并輸入模型進(jìn)行訓(xùn)練。
本研究采用BiLSTM-CRF模型進(jìn)行命名實(shí)體識別研究,模型結(jié)構(gòu)見圖8。該模型主要包括Embedding層、BiLSTM雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、CRF層3個(gè)部分。
Embedding層主要將學(xué)者的文本信息進(jìn)行字符級別的編碼,通過Word2Vec的連續(xù)詞袋(CBOW)模型可以預(yù)測每個(gè)字符的出現(xiàn)概率,使句子表示為字符級特征向量,再將字符向量輸入到BiLSTM模型中。
長短期記憶網(wǎng)絡(luò)(long-short term memory,LSTM)是基于RNN模型(循環(huán)神經(jīng)網(wǎng)絡(luò))進(jìn)行的變體,相較于傳統(tǒng)的RNN模型,引入記憶單元(memory cell)和門的控制結(jié)構(gòu)[15]。LSTM通過遺忘門決定上一時(shí)刻的記憶單元有多少保留到當(dāng)前時(shí)刻,通過輸入門決定當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入有多少保存到單元狀態(tài),通過輸出門控制單元狀態(tài)有多少輸出到LSTM的當(dāng)前輸出值,可以解決原始RNN模型無法處理長距離依賴關(guān)系的問題。而BiLSTM通過雙向循環(huán)結(jié)構(gòu)可以解決LSTM模型只能從前往后傳遞信息的問題,從而可以使模型結(jié)合正反2個(gè)方向的信息,最終輸出數(shù)據(jù)標(biāo)簽的分布概率。
條件隨機(jī)場(conditional random field,CRF)是一種條件概率分布模型,可以考慮上下文標(biāo)簽的依賴關(guān)系,對BiLSTM輸出的標(biāo)簽概率進(jìn)行一定的約束,以保證最終的預(yù)測結(jié)果是有效的。其原理是設(shè)x=(x1,x2,…,xn),y=(y1,y2,…,yn)均為線性鏈表示的隨機(jī)變量序列,在給定隨機(jī)變量序列x的條件下,隨機(jī)變量y的條件概率分布P(y|x)構(gòu)成條件隨機(jī)場。當(dāng)隨機(jī)變量取值為x的條件下,隨機(jī)變量為y的條件概率有如下公式。
(1)
(2)
式中:tk、sl表示特征函數(shù),一般情況下,tk、sl的取值為1或0,即滿足特征條件時(shí)為1,不滿足則為0;λk、μl分別表示tk、sl所對應(yīng)的權(quán)值;Z(x)表示規(guī)范化因子,來保證P(y|x)的概率分布。
在訓(xùn)練時(shí)通過最大擬然估計(jì)求得最大概率,預(yù)測時(shí)利用維特比(Viterbi)算法進(jìn)行解碼,預(yù)測出最大概率的標(biāo)簽序列。
本研究采用準(zhǔn)確率(P)、召回率(R)、F1值3個(gè)指標(biāo)作為模型的評價(jià)標(biāo)準(zhǔn)。其計(jì)算公式分別為
(3)
(4)
(5)
式中:準(zhǔn)確率(P)表示模型識別到的正確實(shí)體占識別總實(shí)體的比例;召回率(R)表示識別正確實(shí)體占原數(shù)據(jù)總實(shí)體的比例;F1值表示調(diào)和平均數(shù),綜合正確率和召回率,用于綜合反映模型整體的效果。
由表4可知,此模型在訓(xùn)練集上的命名實(shí)體識別準(zhǔn)確率、召回率、F1值較高,分別達(dá)到87.03%、83.99%、85.49%,而在測試集上的效果有一定的折損。比較表4和表5可知,單一的LSTM模型實(shí)體抽取效果較差,準(zhǔn)確率、召回率和F1值均有所下降,召回率下降較多,說明在整個(gè)數(shù)據(jù)集中識別到的正確實(shí)體數(shù)較少。而BiLSTM-CRF模型的F1值比LSTM模型高4.19百分點(diǎn)??梢?加入前后文信息并使用CRF層對BiLSTM輸出序列進(jìn)行約束后,模型的命名實(shí)體識別效果有明顯提升。
表4 BiLSTM-CRF模型訓(xùn)練結(jié)果
表5 BiLSTM-CRF和LSTM模型對比試驗(yàn)
本研究使用Neo4j圖數(shù)據(jù)庫對學(xué)者實(shí)體和文獻(xiàn)數(shù)據(jù)進(jìn)行存儲(chǔ)和關(guān)系構(gòu)建以及可視化展示。Neo4j可以通過Cypher語言進(jìn)行數(shù)據(jù)庫的操作,也可以通過交互式界面訪問圖譜數(shù)據(jù),可以輕易地表示出半結(jié)構(gòu)化的數(shù)據(jù)和數(shù)據(jù)間的關(guān)系。在獲取抽取的實(shí)體后,導(dǎo)出為json格式文件,使用腳本語言自動(dòng)寫入Neo4j圖數(shù)據(jù)庫進(jìn)行可視化存儲(chǔ),并與文獻(xiàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)(圖9)。最終構(gòu)建10多萬實(shí)體和40多萬組關(guān)系。
本體的評價(jià)指標(biāo)主要包括完整性、清晰性、一致性、可擴(kuò)展性和兼容性[16]。本研究以長三角地區(qū)農(nóng)業(yè)專家學(xué)者信息為數(shù)據(jù)源,基于上述所構(gòu)建的學(xué)者本體,通過BiLSTM-CRF模型對農(nóng)業(yè)學(xué)者信息進(jìn)行實(shí)體抽取和填充,并基于農(nóng)業(yè)學(xué)者實(shí)例結(jié)合上述指標(biāo)對該本體模型進(jìn)行評估,以確保其能夠滿足知識服務(wù)平臺的建設(shè)需求。
由圖10可知,以“王才林”為學(xué)者實(shí)例,根據(jù)學(xué)者主頁的簡介信息進(jìn)行實(shí)體抽取,對本體屬性進(jìn)行填充,并通過“發(fā)表文獻(xiàn)”這一屬性關(guān)聯(lián)相關(guān)文獻(xiàn),添加所屬單位、關(guān)鍵詞、摘要、文獻(xiàn)來源、文獻(xiàn)編號等屬性信息,最終實(shí)現(xiàn)以“王才林”為核心的農(nóng)業(yè)學(xué)者語義網(wǎng)絡(luò)。
從農(nóng)業(yè)學(xué)者本體的實(shí)例示意來看,在完整性方面,該本體參考Wikidata的researcher類對研究人員的描述以及都柏林核心集對信息資源的元數(shù)據(jù)定義,覆蓋面較完善,但是考慮到數(shù)據(jù)源存在缺失的可能性,所以在學(xué)者類中缺少對科研項(xiàng)目的定義,在后續(xù)增加可靠的數(shù)據(jù)源后,應(yīng)對本體進(jìn)行更新補(bǔ)充。在清晰性方面,農(nóng)業(yè)學(xué)者本體擁有3類抽象概念、5個(gè)一級核心類以及8個(gè)二級子類,其概念和屬性關(guān)系定義明確。從本體實(shí)例來看,學(xué)者信息能夠準(zhǔn)確地填充進(jìn)本體類和屬性中,避免了歧義,進(jìn)而確保農(nóng)業(yè)學(xué)者本體的清晰性。在一致性方面,該本體從3類抽象概念出發(fā),自頂向下逐漸細(xì)化,形成邏輯一致的層次結(jié)構(gòu)。在可擴(kuò)展性方面,本研究構(gòu)建的農(nóng)業(yè)學(xué)者本體以O(shè)WL語言進(jìn)行本體描述,其語法靈活,能夠?qū)π鲁霈F(xiàn)的概念方便地進(jìn)行描述,擴(kuò)展性更好,還可以關(guān)聯(lián)豐富的詞匯表資源。在兼容性方面,農(nóng)業(yè)學(xué)者本體內(nèi)部可以實(shí)現(xiàn)學(xué)者與文獻(xiàn)資源的映射,并在構(gòu)建過程中聲明與FOAF本體Person類的繼承關(guān)系,從而保證該本體與其他信息組織資源的兼容與互操作。
本研究以長三角地區(qū)農(nóng)業(yè)學(xué)者為對象,優(yōu)化傳統(tǒng)的本體構(gòu)建方法,提出農(nóng)業(yè)學(xué)者本體構(gòu)建方法和流程。在厘清學(xué)者相關(guān)概念體系以及學(xué)術(shù)文獻(xiàn)關(guān)鍵屬性的基礎(chǔ)上,完成本體框架模型的設(shè)計(jì)。運(yùn)用Protégé工具完成類和屬性的定義,建立農(nóng)業(yè)學(xué)者領(lǐng)域本體,并實(shí)現(xiàn)本體的形式化與可視化表示,最后以長三角地區(qū)農(nóng)業(yè)學(xué)者為例,采用深度學(xué)習(xí)算法對學(xué)者簡介信息進(jìn)行實(shí)體抽取,完成本體實(shí)例的填充,大大減少了本體建模的人工依賴性,并利用Neo4j圖數(shù)據(jù)庫進(jìn)行實(shí)體和關(guān)系的存儲(chǔ)以及可視化展示,還利用農(nóng)業(yè)學(xué)者實(shí)例開展本體的驗(yàn)證與評估。但由于學(xué)者信息數(shù)據(jù)源的復(fù)雜多樣且沒有統(tǒng)一的內(nèi)容形式,以及隨著時(shí)代的進(jìn)步發(fā)展,農(nóng)業(yè)學(xué)者信息的核心屬性存在變化的可能,所以在后續(xù)的研究與應(yīng)用中,該本體的內(nèi)容覆蓋上還存在優(yōu)化的空間。
在后續(xù)的研究中,將進(jìn)一步完善農(nóng)業(yè)學(xué)者本體的概念體系和屬性結(jié)構(gòu),在應(yīng)用層面,該學(xué)者本體將作為知識圖譜的模式層,進(jìn)一步結(jié)合深度學(xué)習(xí)算法實(shí)現(xiàn)專家興趣預(yù)測、農(nóng)業(yè)學(xué)者畫像等應(yīng)用,進(jìn)而建立基于知識圖譜的面向農(nóng)業(yè)從業(yè)人員的知識服務(wù)平臺。