亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合關(guān)鍵詞提取與遠(yuǎn)程監(jiān)督的文物信息資源實(shí)體關(guān)系抽取方法研究

        2023-02-21 13:07:02童兆莉
        現(xiàn)代情報 2023年2期
        關(guān)鍵詞:知識庫實(shí)體遠(yuǎn)程

        彭 博 童兆莉

        (1.華中科技大學(xué)建筑與城市規(guī)劃學(xué)院,湖北 武漢 430074;2.華中師范大學(xué)信息管理學(xué)院,湖北 武漢 430079;3.湖北省城鎮(zhèn)化工程技術(shù)研究中心,湖北 武漢 430074)

        網(wǎng)絡(luò)的開放性、交互性以及共享性特征使信息資源數(shù)量達(dá)到了前所未有的豐富程度,但其中大部分以非結(jié)構(gòu)化數(shù)據(jù)的形式出現(xiàn),如要對該類信息資源進(jìn)行深度利用,就需要通過信息抽取將其轉(zhuǎn)換為結(jié)構(gòu)化、半結(jié)構(gòu)化的信息以待進(jìn)一步的分析。實(shí)體關(guān)系抽取作為信息抽取的重要組成部分,可以從信息資源中獲取描述實(shí)體關(guān)系及屬性的三元組,為知識圖譜構(gòu)建、語義分析等研究提供基礎(chǔ)數(shù)據(jù)。但是網(wǎng)絡(luò)信息資源數(shù)量龐大、復(fù)雜多樣、更新頻繁,人工方法標(biāo)注全部數(shù)據(jù)需要進(jìn)行大量工作,亟需一種自動進(jìn)行的高效方法完成實(shí)體關(guān)系抽取,才能滿足網(wǎng)絡(luò)信息資源數(shù)據(jù)處理的需要,充分利用網(wǎng)絡(luò)中的海量數(shù)據(jù)。

        自動進(jìn)行信息資源實(shí)體關(guān)系抽取的一個前提是該領(lǐng)域中具有大量標(biāo)準(zhǔn)統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)作為參考,而文物領(lǐng)域中的數(shù)據(jù)正好符合這一特征。該領(lǐng)域具有數(shù)字化程度高、數(shù)據(jù)標(biāo)準(zhǔn)清晰、實(shí)體關(guān)系明晰的特點(diǎn),在開展實(shí)體關(guān)系自動抽取時擁有良好的數(shù)據(jù)基礎(chǔ)。基于此,文章聚焦網(wǎng)絡(luò)中由非結(jié)構(gòu)化數(shù)據(jù)組成文物信息資源,面向網(wǎng)絡(luò)文物信息資源提出了一種將信息資源關(guān)鍵詞與遠(yuǎn)程監(jiān)督方法結(jié)合,融合多知識庫數(shù)據(jù)的實(shí)體關(guān)系自動抽取方法。

        1 相關(guān)研究

        1.1 實(shí)體關(guān)系抽取的相關(guān)研究

        實(shí)體關(guān)系抽取是指將非結(jié)構(gòu)化數(shù)據(jù)構(gòu)成的信息資源轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)并進(jìn)行存儲[1],現(xiàn)有的實(shí)體關(guān)系抽取有關(guān)研究主要圍繞無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、全監(jiān)督學(xué)習(xí)以及遠(yuǎn)程監(jiān)督方式進(jìn)行。

        無監(jiān)督學(xué)習(xí)根據(jù)實(shí)體的上下文特征進(jìn)行,利用每個實(shí)體關(guān)系對在句中的固定特征進(jìn)行聚類,通過聚類后的結(jié)果進(jìn)行實(shí)體關(guān)系抽取。Hasegawa T等[2]通過命名實(shí)體的上下文特征進(jìn)行聚類,根據(jù)實(shí)體間的相似性打上對應(yīng)標(biāo)簽,完成實(shí)體關(guān)系抽取。Miller S等[3]通過統(tǒng)計(jì)方法設(shè)計(jì)匹配規(guī)則,經(jīng)過詞性識別、實(shí)體識別、句法分析、語義解析4個步驟進(jìn)行實(shí)體關(guān)系抽取。Kambhatla N[4]采用最大熵模型來整合文本中的詞、句的語義特征,使用邏輯回歸的方法進(jìn)行實(shí)體關(guān)系的分類,實(shí)現(xiàn)實(shí)體關(guān)系抽取。Zhao S等[5]使用核函數(shù)模型,將分詞、句子解析、深度依存分析分別進(jìn)行核函數(shù)表示,綜合3種維度進(jìn)行預(yù)定義關(guān)系下的實(shí)體關(guān)系抽取。無監(jiān)督方法不需要訓(xùn)練數(shù)據(jù),能夠?qū)Ω鞣N類型信息資源進(jìn)行實(shí)體關(guān)系抽取,適應(yīng)性強(qiáng),但由于其多基于聚類結(jié)果抽取,所獲取結(jié)果準(zhǔn)確率通常較低。

        半監(jiān)督學(xué)習(xí)只需通過少量的種子標(biāo)記樣本與大量無標(biāo)記樣本進(jìn)行迭代訓(xùn)練就可以得到分類模型[6],常見方法有Bootstrapping[7]、協(xié)同訓(xùn)練[8]和標(biāo)注傳播[9]。半監(jiān)督實(shí)體關(guān)系抽取的最大特點(diǎn)是通過對領(lǐng)域語料進(jìn)行分析后制定一定的規(guī)則,利用小規(guī)模數(shù)據(jù)實(shí)現(xiàn)關(guān)系抽取,抽取結(jié)果精度較高,但該方法存在語義漂移等問題,而且樣本數(shù)據(jù)中的錯誤會隨算法迭代進(jìn)一步放大。

        全監(jiān)督學(xué)習(xí)方法有基于規(guī)則、基于特征和基于核函數(shù)等。隨著深度學(xué)習(xí)的出現(xiàn),全監(jiān)督學(xué)習(xí)擺脫了傳統(tǒng)機(jī)器學(xué)習(xí)算法需要進(jìn)行特征設(shè)計(jì)的缺點(diǎn),可以自動提取實(shí)體關(guān)系的特征。Socher R等[10]使用Word2Vec與遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)體關(guān)系抽取,其首先學(xué)習(xí)實(shí)體在句子中的向量表示,然后通過遞歸神經(jīng)網(wǎng)絡(luò)得到句子的向量表示進(jìn)行關(guān)系分類,開創(chuàng)了深度學(xué)習(xí)在實(shí)體關(guān)系抽取中的應(yīng)用。Zeng D等[11]利用卷積神經(jīng)網(wǎng)絡(luò)提取詞匯和句子級特征,將這兩個級別的特征連接以形成最終提取的特征向量,而后輸入到Softmax分類器中,從而預(yù)測兩個標(biāo)記實(shí)體之間的關(guān)系進(jìn)行實(shí)體關(guān)系抽取。Nguyen T H等[12]使用多個尺度的窗口過濾預(yù)訓(xùn)練詞向量,得到了一種基于卷積神經(jīng)網(wǎng)絡(luò)的泛化實(shí)體關(guān)系提取方法。由于卷積神經(jīng)網(wǎng)絡(luò)在處理長句時會由于過長的輸入增加導(dǎo)致精度下降,Xu Y等[13]提出,使用長短時記憶網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,在句子級別實(shí)體關(guān)系抽取中,找到兩個實(shí)體在依存樹中的最短路徑以去除無關(guān)信息,長短時記憶網(wǎng)絡(luò)較以往的卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取,使用最短依賴路徑保留相關(guān)信息的同時消除了句子中不相關(guān)的詞,多通道長短時記憶網(wǎng)絡(luò)允許通過依賴路徑從異構(gòu)源進(jìn)行有效的信息集成,還可以減輕神經(jīng)網(wǎng)絡(luò)過擬合的情況。

        全監(jiān)督學(xué)習(xí)方法體現(xiàn)出了較高的實(shí)體關(guān)系抽取效率,但其面臨的一個關(guān)鍵問題就是標(biāo)記資源的稀缺,對大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)的需求導(dǎo)致其進(jìn)行關(guān)系抽取時需要付出較高的成本。遠(yuǎn)程監(jiān)督[14]方法的提出為數(shù)據(jù)的自動標(biāo)注提供了一個可行的路徑,即通過假設(shè)“如果兩個實(shí)體在知識庫中具有關(guān)聯(lián)關(guān)系,那么其所在的句子則能夠提取出相應(yīng)的關(guān)系”利用外部知識庫中預(yù)先儲存的關(guān)系信息對句子中實(shí)體關(guān)系進(jìn)行標(biāo)注,能夠滿足大數(shù)據(jù)環(huán)境下大量樣本標(biāo)記的需求,降低標(biāo)注成本,解決大規(guī)模語料人工標(biāo)注耗時費(fèi)力的問題。知識庫的不斷更新也能保證實(shí)體關(guān)系標(biāo)注的即時性,是面向網(wǎng)絡(luò)環(huán)境進(jìn)行信息資源實(shí)體關(guān)系抽取的一種可行方法。隨后,學(xué)者們利用多示例學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法[15],降低遠(yuǎn)程監(jiān)督由于過于絕對的假設(shè)帶來的標(biāo)注噪音問題,進(jìn)一步提高實(shí)體關(guān)系抽取效率。深度學(xué)習(xí)中注意力機(jī)制的出現(xiàn)進(jìn)一步提升了遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取的性能,注意力機(jī)制能從大量文本序列信息中篩選出重要的特征,提高遠(yuǎn)程監(jiān)督標(biāo)注中正樣本的重要性,樣本中的關(guān)鍵詞的權(quán)重得以進(jìn)一步放大,使得深度學(xué)習(xí)模型能夠更好捕捉正樣本的特征[16]。隨著外部知識庫的不斷發(fā)展,有學(xué)者將知識庫中已有的先驗(yàn)知識融入神經(jīng)網(wǎng)絡(luò)模型中,作為獲取語義特征的預(yù)訓(xùn)練模型,加入遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取的工作中,進(jìn)一步提升了抽取效率[17]。在遠(yuǎn)程監(jiān)督的有關(guān)研究中,學(xué)者們著重解決的問題主要圍繞如何更好地利用現(xiàn)有標(biāo)注數(shù)據(jù),通過捕獲正樣本特征來提高實(shí)體關(guān)系抽取的正確率上,較少有利用領(lǐng)域內(nèi)容特征提升數(shù)據(jù)標(biāo)注質(zhì)量降低遠(yuǎn)程監(jiān)督噪音的研究。目前,信息資源內(nèi)容的提取主要依靠關(guān)鍵詞抽取方法進(jìn)行[18],內(nèi)容有關(guān)關(guān)鍵詞提取在關(guān)鍵詞頻率較高的子集中計(jì)算得來,重復(fù)出現(xiàn)的內(nèi)容一定程度上代表了其在信息資源中的重要性,也意味著其作為主要內(nèi)容代表的概率越高,因此這些關(guān)鍵詞能提供與主要內(nèi)容有關(guān)的信息。以文本為例,當(dāng)前關(guān)鍵詞提取方法可以分為統(tǒng)計(jì)學(xué)方法、語言學(xué)方法、監(jiān)督學(xué)習(xí)方法、主題模型方法4種[19],不同方法對文物信息資源中與主要內(nèi)容有關(guān)關(guān)鍵詞提取的效率不盡相同[20],但是通過抽取關(guān)鍵詞能夠精煉外部知識庫中與信息資源內(nèi)容有關(guān)的實(shí)體關(guān)系集合,對于降低遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取中的噪音問題有顯著的效果。

        1.2 文物信息資源的有關(guān)研究

        文章按照結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)對網(wǎng)絡(luò)中的文物信息資源進(jìn)行分類分析[21]。結(jié)構(gòu)化數(shù)據(jù)多以專業(yè)數(shù)據(jù)庫的形式存在,如全國館藏文物信息數(shù)據(jù)庫、各博物館自建數(shù)據(jù)庫等,該類信息資源由于系統(tǒng)限制、數(shù)據(jù)標(biāo)準(zhǔn)不一等問題,致使收集和整理難度較大,因此,可以進(jìn)行直接利用的內(nèi)容較少。半結(jié)構(gòu)化數(shù)據(jù)多以網(wǎng)頁、鏈接等形式存在,如各博物館有關(guān)的介紹頁面、百度百科中的詞條等,這類信息資源具有針對文物的分類信息介紹,需要通過包裝器或者有針對性的數(shù)據(jù)抽取方法將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是互聯(lián)網(wǎng)中主要的信息資源,由于閱讀過程更符合人類習(xí)慣,這類數(shù)據(jù)也成為了數(shù)量最多、應(yīng)用最為廣泛、受眾最易理解的信息資源[22]。如對這類信息資源進(jìn)行利用,首要問題就變成了從中抽取結(jié)構(gòu)化數(shù)據(jù),也就是進(jìn)行實(shí)體關(guān)系抽取。

        總的來看,網(wǎng)絡(luò)中的文物信息資源具有以下特點(diǎn):①信息量大,傳播廣泛;②內(nèi)容豐富,質(zhì)量不一;③時效性強(qiáng),動態(tài)更新;④信息使用成本低,共享程度高;⑤重復(fù)度高,用戶獲取文物知識的效率較低;⑥缺乏系統(tǒng)性的數(shù)據(jù)采集與分析方法。上述特點(diǎn)說明了,進(jìn)行文物信息資源的開發(fā)與利用需要選擇有針對性的方法進(jìn)行實(shí)體關(guān)系抽取以獲取蘊(yùn)含其中的知識,這其中的核心是將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)所構(gòu)成的信息資源進(jìn)行深度融合,利用結(jié)構(gòu)化數(shù)據(jù)抽取非結(jié)構(gòu)化數(shù)據(jù)信息資源中的實(shí)體關(guān)系,引導(dǎo)用戶更充分地了解文物知識,提升網(wǎng)絡(luò)中文物信息資源的利用效率。

        基于以上分析,文章首先從非結(jié)構(gòu)化的文物信息資源中抽取關(guān)鍵詞,以獲取文本的主要內(nèi)容,限定外部知識庫的檢索范圍,以便更為集中地獲取文物實(shí)體間的關(guān)聯(lián)關(guān)系。然后將關(guān)鍵詞通過SPARQL語言在多個外部知識庫中查詢候選實(shí)體并獲取實(shí)體關(guān)系后基于語義進(jìn)行對齊,最后依據(jù)遠(yuǎn)程監(jiān)督有關(guān)假設(shè)進(jìn)行網(wǎng)絡(luò)文物信息資源的實(shí)體關(guān)系抽取。該方法從關(guān)鍵詞角度入手獲取外部知識庫中與信息資源主題有關(guān)的實(shí)體關(guān)系,能夠顯著降低遠(yuǎn)程監(jiān)督方法進(jìn)行實(shí)體關(guān)系抽取時的噪音,同時基于語義對實(shí)體關(guān)系進(jìn)行合并可以解決關(guān)系標(biāo)注中的長尾問題,方法所構(gòu)建的自動化抽取過程能夠在大數(shù)據(jù)環(huán)境下面向網(wǎng)絡(luò)信息資源進(jìn)行高效的實(shí)體關(guān)系抽取。

        2 基于關(guān)鍵詞提取與遠(yuǎn)程監(jiān)督的文物信息資源實(shí)體關(guān)系抽取模型

        文章實(shí)體關(guān)系抽取的對象為廣義信息資源的概念下的文物信息資源,來源豐富、形式多樣與文物有關(guān)的文本、圖像、視頻等資源都可以被視為文物信息資源。實(shí)體關(guān)系抽取過程分三步進(jìn)行,首先依據(jù)信息資源的特征抽取與主要內(nèi)容有關(guān)的關(guān)鍵詞作為外部知識庫檢索詞,這是由于知識庫中的實(shí)體記錄數(shù)以億計(jì),實(shí)體關(guān)系幾十億計(jì),直接使用信息資源文本進(jìn)行檢索會獲取大量與文物無關(guān)的數(shù)據(jù),因此,抽取與信息資源主題密切相關(guān)的關(guān)鍵詞作為檢索詞,可以增加從知識庫獲取文物實(shí)體及關(guān)系數(shù)據(jù)的精度,減少無關(guān)實(shí)體帶來的噪音。然后將檢索到的實(shí)體兩兩組合,在知識庫中進(jìn)行實(shí)體關(guān)系遍歷檢索,構(gòu)建實(shí)體關(guān)系集合。由于不同知識庫對同種實(shí)體關(guān)系的描述存在差異,需要根據(jù)語義相似度按統(tǒng)一標(biāo)準(zhǔn)進(jìn)行對齊,最后利用對齊后實(shí)體關(guān)系集合,選擇遠(yuǎn)程監(jiān)督方法從信息資源中抽取實(shí)體關(guān)系三元組,抽取模型如圖1所示。

        圖1 基于關(guān)鍵詞與遠(yuǎn)程監(jiān)督的信息資源實(shí)體關(guān)系抽取模型

        針對遠(yuǎn)程監(jiān)督方法在實(shí)體關(guān)系抽取中出現(xiàn)的噪音、關(guān)系標(biāo)注的長尾現(xiàn)象及多知識庫關(guān)系描述存在差異等問題,文章的創(chuàng)新之處在于從信息資源內(nèi)容角度出發(fā),利用主題關(guān)鍵詞對知識庫實(shí)體關(guān)系進(jìn)行篩選,以達(dá)到減少無關(guān)實(shí)體關(guān)系標(biāo)注帶來的噪音問題。同時通過基于語義的詞匯相似度計(jì)算對多知識庫實(shí)體關(guān)系進(jìn)行對齊,解決關(guān)系標(biāo)注的長尾現(xiàn)象。多知識庫實(shí)體關(guān)系的融合能進(jìn)一步擴(kuò)充數(shù)據(jù)來源,提高關(guān)系抽取效果。

        2.1 信息資源中知識庫檢索詞的獲取

        遠(yuǎn)程監(jiān)督方法進(jìn)行實(shí)體關(guān)系抽取,其核心思想是基于一種強(qiáng)關(guān)系假設(shè),即對于一個已知的實(shí)體關(guān)系三元組,假設(shè)信息資源中的句子包含該實(shí)體對,則可以認(rèn)為這兩個實(shí)體包含這種關(guān)系。基于該假設(shè),遠(yuǎn)程監(jiān)督可以利用知識庫中已經(jīng)存在的大量實(shí)體關(guān)系三元組對信息資源進(jìn)行句子級別的實(shí)體關(guān)系標(biāo)注。但該方法在對大量數(shù)據(jù)自動標(biāo)注時也存在著標(biāo)記錯誤和噪音問題,影響了實(shí)體關(guān)系抽取的效果。

        因此,文章提出從信息資源內(nèi)容角度對遠(yuǎn)程監(jiān)督方法進(jìn)行改進(jìn),通過提取信息資源中與主題有關(guān)的關(guān)鍵詞,對外部知識庫實(shí)體關(guān)系進(jìn)行過濾,構(gòu)建與信息資源主題內(nèi)容有關(guān)的三元組集合,利用精煉后的三元組集合替代知識庫進(jìn)行基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取。網(wǎng)絡(luò)中文物信息資源主要有兩方面的來源:

        一是對文物進(jìn)行科普性質(zhì)描述的信息資源,該類資源一般是針對文物主要特征的概括性介紹,主題集中且內(nèi)容重復(fù)度較高。對于這部分內(nèi)容,文章提出使用主題模型方法[23]進(jìn)行,LDA是一種三層貝葉斯概率模型,通過分析文檔、主題、詞項(xiàng),將關(guān)鍵詞向量約減為關(guān)鍵詞集合的降維表達(dá)。LDA首先假設(shè)所有的文檔均存在一定數(shù)量的隱含主題,先以一定概率抽取主題,然后再選定主題,抽取特征詞,通過設(shè)定的迭代次數(shù)獲取足夠的特征詞。每個特征詞在文檔中出現(xiàn)的概率為:

        p(特征詞|文檔)=Σ主題p(特征詞|主題)×p(主題|文檔)

        (1)

        二是對文物進(jìn)行研究的論文、報告等,主要針對文物知識的深入解讀,主題分散且由于存在論文查重機(jī)制重復(fù)率較低。文章提出使用基于統(tǒng)計(jì)學(xué)的TF-IDF[24]算法進(jìn)行關(guān)鍵詞抽取,該算法可以發(fā)現(xiàn)在一篇文檔中出現(xiàn)頻率較高而在文檔集合中出現(xiàn)頻率較低的詞,能夠有效區(qū)分文本內(nèi)容間的不同。如式(2)所示。G代表文檔總數(shù),nt為包含特定詞語t的文檔數(shù),TF代表詞頻,IDF是包含詞語文檔數(shù)與總文檔數(shù)的對數(shù),一個詞語的重要性隨其在文檔中出現(xiàn)的頻率而增加,但隨其在文檔集中出現(xiàn)的總頻率而減小。

        (2)

        兩類文物信息資源依照統(tǒng)計(jì)學(xué)方法提取詞語分布特征后進(jìn)行分類,可以發(fā)現(xiàn),分類結(jié)果存在明顯差異,科普性質(zhì)信息資源間關(guān)聯(lián)度緊密,而研究性質(zhì)信息資源間關(guān)系離散。針對上述差異,文章提出將某一領(lǐng)域或主題的信息資源依據(jù)內(nèi)容進(jìn)行聚類,而后根據(jù)科普類和科研類信息資源在文章主題結(jié)構(gòu)上的差異,分別采用基于主題模型以及基于統(tǒng)計(jì)學(xué)的關(guān)鍵詞抽取方法進(jìn)行主題關(guān)鍵詞的抽取,可以更加準(zhǔn)確地獲取代表不同類型信息資源主題的關(guān)鍵詞,從而提升知識庫檢索精度,獲取過程如圖2所示。

        圖2 面向信息資源內(nèi)容與結(jié)構(gòu)特征的知識庫檢索詞獲取過程

        2.2 信息資源實(shí)體關(guān)系獲取與命名實(shí)體識別

        圖3 知識庫實(shí)體關(guān)系的SPARQL檢索式

        在得到查詢結(jié)果后,使用圖模型將三元組中的實(shí)體及屬性映射為節(jié)點(diǎn)和邊,映射過程可以表示為(S,P,O)→Gi=(Vn,Em),其中V={S,O}、E={(S→O)},邊E的標(biāo)簽表示為P,通過映射方法構(gòu)建文物信息資源實(shí)體關(guān)系集合。

        2.3 多知識庫融合的信息資源實(shí)體關(guān)系抽取

        由于各知識庫實(shí)體關(guān)系的描述詞不盡相同,獲取到多個知識庫中的實(shí)體關(guān)系及實(shí)體鏈之后,需要對實(shí)體關(guān)系集合中的邊進(jìn)行統(tǒng)一,合并具有相同意義的關(guān)系。文章選擇基于知網(wǎng)(HowNet)[25]與《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》[26]融合的詞匯語義相似度計(jì)算方法進(jìn)行實(shí)體關(guān)系描述詞的對齊。首先進(jìn)行基于知網(wǎng)的詞匯相似度計(jì)算,通過比較義原間的相似度判斷詞匯間的相似度。義項(xiàng)間相似度計(jì)算如式(3)所示,其中,參數(shù)βi是可調(diào)節(jié)的,β1+β2+β3=1,其取值分別為0.7、0.17、0.13,如果兩種詞匯之間可能存在多種義項(xiàng)關(guān)系,則取所有計(jì)算結(jié)果的最大值。

        (3)

        然后進(jìn)行基于同義詞詞林的詞匯相似度計(jì)算,由于同義詞詞林的五層樹形構(gòu)造,詞匯間的相關(guān)性可以按照層次之間的連接性進(jìn)行計(jì)算,不同第一層大類間的初始距離設(shè)置為18,按照層次順序依次賦予詞匯權(quán)重wi,其中0.5≤w5≤w4≤w3≤w2≤5,w5+w4+w3+w2≤10。詞林中決定詞匯相似度的因素還有樹形結(jié)構(gòu)的層數(shù)n和兩個詞匯之間層數(shù)的距離k,因此最終的計(jì)算公式為式(4)。

        (4)

        其中,dis(C1,C2)是詞匯代號C1、C2在樹狀結(jié)構(gòu)中的距離函數(shù),等于詞匯連接路徑中各級層數(shù)權(quán)重處理之后的加總。最后文章將兩種詞匯相似度進(jìn)行融合計(jì)算,得到總相似度s,λ取值分別為0.5,計(jì)算如式(5)所示。

        s=λ1S1+λ2S2

        (5)

        在知識庫實(shí)體關(guān)系對齊的實(shí)踐中,文章以WikiData知識庫中定義的8 440種實(shí)體關(guān)系類別[27]為對齊目標(biāo),其他知識庫實(shí)體關(guān)系描述詞匯與WikiData知識庫中定義的實(shí)體關(guān)系描述詞匯進(jìn)行遍歷相似度計(jì)算,以相似度最高的目標(biāo)作為實(shí)體關(guān)系對齊的依據(jù),對齊過程如圖4所示。

        圖4 多知識庫實(shí)體關(guān)系對齊過程

        最后將多知識庫融合的實(shí)體關(guān)系集合{、…、}作為數(shù)據(jù)源對文物信息資源依據(jù)遠(yuǎn)程監(jiān)督方法進(jìn)行實(shí)體關(guān)系抽取,即如果En和Em同時出現(xiàn)在信息資源分句后的句子S中,則S表達(dá)了En和Em間的關(guān)系Rk,獲得實(shí)體關(guān)系三元組,完成信息資源中實(shí)體關(guān)系的抽取。

        3 “中國十大傳世名畫”信息資源實(shí)體關(guān)系抽取實(shí)驗(yàn)

        為了驗(yàn)證文章方法的可行性以及對抽取方法進(jìn)行評價,文章以“中國十大傳世名畫”中各名畫的名稱進(jìn)行檢索,從互聯(lián)網(wǎng)中獲取與之有關(guān)的信息資源文本468篇,共41 855句。

        3.1 “中國十大傳世名畫”信息資源的知識庫檢索詞獲取

        由于聚類算法無法直接對自然語言進(jìn)行解析,因此需要通過將自然語言中的詞匯進(jìn)行分解,在使用Jieba分詞工具進(jìn)行分詞后,用詞匯出現(xiàn)次數(shù)的稀疏矩陣來表示文本的特征。文章采用Doc2Vec[28]模型,該模型是一種無監(jiān)督算法,可以獲得句子、段落、文檔間的向量表達(dá)。在聚類方法的選擇上,使用K-Means[29]算法進(jìn)行,該算法源于信號處理中的一種向量量化方法,現(xiàn)在則作為一種聚類分析方法流行于數(shù)據(jù)挖掘領(lǐng)域。K-Means聚類的目的是:樣本中的n個點(diǎn)劃分到k個聚類中,使每個點(diǎn)都和每個聚類中心點(diǎn)最為接近,以此作為聚類的標(biāo)準(zhǔn)。聚類個數(shù)由3個參數(shù)共同決定,分別是組內(nèi)平方誤差和(Sum of Squared Error,SSE)[30]、輪廓系數(shù)(Average Silhouette Method)[31]、困惑度(Perplexity)[32],如圖5所示,最終聚類個數(shù)為8。

        圖5 信息資源聚類個數(shù)確定過程

        隨后文章對這8個聚類使用TF-IDF提取文檔向量,K-Means算法進(jìn)行二分類,分類結(jié)果中相對聚集的類團(tuán)使用LDA主題模型抽取關(guān)鍵詞,相對離散的類團(tuán)使用TF-IDF模型抽取關(guān)鍵詞,為了觀察文章方法的實(shí)體關(guān)系抽取效果,關(guān)鍵詞閾值分別選擇10、30、50。

        3.2 “中國十大傳世名畫”信息資源的實(shí)體關(guān)系獲取與命名實(shí)體識別

        從表1可以發(fā)現(xiàn),文章方法所抽取的關(guān)鍵詞個數(shù)和其他單一方法相比在3種閾值下均最多,這說明該方法可以最大限度地抽取信息資源中主要內(nèi)容有關(guān)的關(guān)鍵詞。在通過關(guān)鍵詞檢索獲取實(shí)體的數(shù)量方面,該方法與其他單一方法比較所獲取到的實(shí)體數(shù)量最多,關(guān)鍵詞與實(shí)體的匹配率上處于中間水平,關(guān)鍵詞與所獲取實(shí)體數(shù)量的比值并未隨閾值的增加而明顯下降,這說明文章方法能夠隨著閾值的增加穩(wěn)定地進(jìn)行命名實(shí)體識別工作。

        表1 “中國十大傳世名畫”信息資源的關(guān)鍵詞抽取與實(shí)體獲取結(jié)果

        3.3 “中國十大傳世名畫”信息資源實(shí)體關(guān)系抽取

        從外部知識庫中獲取到的實(shí)體關(guān)系是根據(jù)信息資源的主題內(nèi)容對外部知識庫中眾多實(shí)體關(guān)系的一次篩選,隨后需要對這些實(shí)體關(guān)系進(jìn)行對齊,才能夠使用遠(yuǎn)程監(jiān)督方法進(jìn)行信息資源中實(shí)體關(guān)系的抽取。文章根據(jù)前述方法選擇WikiData知識庫中的8 440種已定義的實(shí)體關(guān)系作為對齊目標(biāo),由于這些關(guān)系依舊具有極強(qiáng)的長尾特征,出現(xiàn)次數(shù)最高的關(guān)系約為平均數(shù)的500倍,故文章在實(shí)體關(guān)系對齊時選擇了出現(xiàn)次數(shù)超過平均值的關(guān)系,即全部關(guān)系前5%[34]作為最終對齊目標(biāo),根據(jù)前文中的方法進(jìn)行實(shí)體關(guān)系對齊。

        根據(jù)對齊后的實(shí)體關(guān)系集合在“中國十大傳世名畫”信息資源文本的41 855句中使用遠(yuǎn)程監(jiān)督的方法進(jìn)行實(shí)體關(guān)系抽取,即假設(shè)實(shí)體關(guān)系集合中的任意兩個具有關(guān)聯(lián)關(guān)系的實(shí)體出現(xiàn)在同一句話中,則該句中的兩個實(shí)體具有相應(yīng)的關(guān)聯(lián)關(guān)系,從而進(jìn)行信息資源中的實(shí)體關(guān)系抽取,最終抽取結(jié)果如表2所示。

        從表2可以發(fā)現(xiàn),文章方法在閾值較低時從信息資源中抽取到的實(shí)體關(guān)系較少,但隨著閾值的增加,抽取數(shù)量不斷增加,且實(shí)體關(guān)系抽取的增量也較其他方法多,這說明隨著關(guān)鍵詞閾值的增加,文章方法能夠較為全面地抽取信息資源中的實(shí)體關(guān)系。

        3.4 實(shí)體關(guān)系抽取質(zhì)量評價

        為了進(jìn)行信息資源實(shí)體關(guān)系抽取質(zhì)量評價,文章選擇從網(wǎng)絡(luò)視角和實(shí)際抽取效果兩方面進(jìn)行分析,首先利用社會網(wǎng)絡(luò)分析中常用的點(diǎn)度中心度對從信息資源文本中抽取的實(shí)體關(guān)系集合進(jìn)行評價,以考量所抽取實(shí)體關(guān)系間的緊密程度,網(wǎng)絡(luò)的平均點(diǎn)度中心度如圖6所示。

        圖6 實(shí)體關(guān)系集合的網(wǎng)絡(luò)平均中心度指標(biāo)

        從網(wǎng)絡(luò)的角度看,文章方法從信息資源中抽取實(shí)體關(guān)系構(gòu)成的網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度僅次于LSI方法,但實(shí)體關(guān)系抽取數(shù)量顯著高于該方法,說明所抽取實(shí)體關(guān)系間的聯(lián)系較為緊密,且平均中心度隨閾值增加而穩(wěn)定上升,在數(shù)據(jù)量較小時能夠準(zhǔn)確地抽取與信息資源內(nèi)容有關(guān)的實(shí)體關(guān)系,在數(shù)據(jù)量較大時能夠穩(wěn)定剔除無關(guān)關(guān)系帶來的噪音。

        為了進(jìn)一步檢驗(yàn)該方法相較其他方法在實(shí)體關(guān)系抽取中的提升,文章以樣本中未收錄的故宮博物院《五牛圖》介紹頁面進(jìn)行實(shí)體關(guān)系抽取實(shí)驗(yàn)。

        從圖7可以發(fā)現(xiàn),遠(yuǎn)程監(jiān)督抽取的實(shí)體關(guān)系數(shù)量最多,但有部分關(guān)系與文物無關(guān),而文章方法則較好地解決了噪音問題,同時也能夠獲取到相當(dāng)數(shù)量與文物有關(guān)的實(shí)體關(guān)系,而且隨著外部知識庫的不斷更新,方法抽取到的實(shí)體關(guān)系也在未來會繼續(xù)增加。

        圖7 《五牛圖》頁面實(shí)體關(guān)系抽取結(jié)果

        消融實(shí)驗(yàn)基于依存句法分析進(jìn)行關(guān)鍵詞抽取方法下的實(shí)體關(guān)系抽取,使用全知識庫進(jìn)行遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取,同文章方法進(jìn)行對比,結(jié)果如表3所示。

        表3 《五牛圖》頁面實(shí)體關(guān)系抽取消融實(shí)驗(yàn)結(jié)果

        文章方法抽取到了6條實(shí)體關(guān)系三元組,人工方法抽取到了9條實(shí)體關(guān)系三元組,遠(yuǎn)程監(jiān)督方法抽取到了15條實(shí)體關(guān)系三元組,關(guān)鍵詞抽取方法獲得了21條實(shí)體關(guān)系。但后兩種方法蘊(yùn)含了大量的噪音,對抽取結(jié)果的質(zhì)量有著較大影響,而文章方法則較好地解決了文物領(lǐng)域內(nèi)進(jìn)行遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取的噪音問題。

        從實(shí)體關(guān)系抽取應(yīng)用的角度來看,文章進(jìn)行的“中國十大傳世名畫”信息資源的實(shí)體關(guān)系抽取也為文物知識的分析提供了獨(dú)特的視角,比如挖掘清朝第六位皇帝乾隆與十大傳世名畫間隱含的關(guān)聯(lián)關(guān)系。具體分析方法是以乾隆皇帝為實(shí)體節(jié)點(diǎn),抽取關(guān)系集合中與其有關(guān)的節(jié)點(diǎn)并進(jìn)行分析,關(guān)系抽取結(jié)果如圖8所示。

        圖8 乾隆帝實(shí)體關(guān)系抽取結(jié)果

        從圖8可以發(fā)現(xiàn),“中國十大傳世名畫”曾經(jīng)均為乾隆皇帝的收藏,可見其在文物研究上的造詣以及對文物藏品的興趣,更從另外一個側(cè)面顯示了清王朝在乾隆皇帝時代國力的強(qiáng)盛,能夠收集歷朝歷代的著名文物。同時根據(jù)圖中內(nèi)容也可以發(fā)現(xiàn),隨著時間的推移,仍留存在紫禁城中的文物只剩下6件,反映出清朝后期國力衰退、時局混亂,致使諸多文物流落海外,分析結(jié)果與歷史的發(fā)展特征相吻合,從時空數(shù)據(jù)的角度為歷史文物的分析提供了新的視角。由于文章進(jìn)行的實(shí)體關(guān)系抽取是基于外部知識庫的,所有實(shí)體均可以外部鏈接形式進(jìn)行注解,實(shí)體關(guān)系則可以根據(jù)外部知識庫的更新而實(shí)時調(diào)整,兼具擴(kuò)展性與靈活性。

        上述抽取結(jié)果說明,文章方法能夠抽取與信息資源主要內(nèi)容有關(guān)的實(shí)體關(guān)系,可以圍繞文物實(shí)體構(gòu)建關(guān)聯(lián)緊密的實(shí)體關(guān)系集合,抽取到的實(shí)體關(guān)系集合通過重新組織,可以為文物的分析與研究工作提供多種新的分析視角,能夠面向網(wǎng)絡(luò)文物信息資源完成實(shí)體關(guān)系的自動抽取。

        3.5 結(jié) 論

        從網(wǎng)絡(luò)視角對融合關(guān)鍵詞提取與遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取結(jié)果進(jìn)行分析后可以發(fā)現(xiàn),LSI、LDA這類基于主題模型的關(guān)鍵詞抽取方法獲取的檢索詞與文物實(shí)體關(guān)聯(lián)較為密切,但實(shí)體關(guān)系抽取數(shù)量隨著關(guān)鍵詞閾值的增長較為緩慢,這說明網(wǎng)絡(luò)文物信息資源文本的主題較為集中,通常能夠圍繞文物的主要特征展開,如文物的基本情況、主要特點(diǎn)、著名典故等,但對于其他與文物承載內(nèi)容、背景知識等有關(guān)的關(guān)鍵詞,由于分布較為零散、提取效果較差,導(dǎo)致構(gòu)建的實(shí)體關(guān)系網(wǎng)絡(luò)范圍較小,較難涵蓋文物特征的全貌。相對的,TF-IDF這類基于統(tǒng)計(jì)學(xué)的關(guān)鍵詞抽取方法構(gòu)建的實(shí)體關(guān)系網(wǎng)絡(luò)點(diǎn)度中心度較低,實(shí)體關(guān)系間的關(guān)聯(lián)較為松散。同時隨著關(guān)鍵詞閾值k的增加,TF-IDF方法構(gòu)建的實(shí)體關(guān)系網(wǎng)絡(luò)規(guī)模出現(xiàn)較大幅度增長,這說明該類方法能夠獲取到大量與實(shí)體有關(guān)的檢索詞,但其中部分與文物實(shí)體關(guān)聯(lián)程度較低,增加了關(guān)系抽取中的噪音。還有TextRank和Word2Vec這類基于語言學(xué)的關(guān)鍵詞抽取方法,實(shí)體關(guān)系抽取的效果介于上述兩類方法之間,未能體現(xiàn)出方法特點(diǎn)。

        綜合來看,文章提出的依據(jù)內(nèi)容聚類后根據(jù)文本結(jié)構(gòu)特征對信息資源進(jìn)行分類關(guān)鍵詞抽取作為外部知識庫檢索詞的方法,可以在兼顧信息資源主要內(nèi)容的同時,盡可能擴(kuò)大從外部知識庫中獲取實(shí)體關(guān)系的范圍,充分融合不同關(guān)鍵詞抽取方法的特點(diǎn)進(jìn)行互補(bǔ),最后依照遠(yuǎn)程監(jiān)督方法自動抽取信息資源中的實(shí)體關(guān)系。結(jié)果顯示,文章方法能夠較為充分地抽取文物信息資源中的實(shí)體關(guān)系,進(jìn)行命名實(shí)體識別、實(shí)體鏈接、關(guān)系鏈接,還能夠利用抽取到的實(shí)體關(guān)系集合為文物知識的分析提供獨(dú)特視角。

        4 總 結(jié)

        網(wǎng)絡(luò)環(huán)境下,海量信息資源不斷涌現(xiàn),文物作為中華文明發(fā)展過程的見證,任何有關(guān)結(jié)論都需要經(jīng)過嚴(yán)謹(jǐn)?shù)目甲C與推理,因此,面對網(wǎng)絡(luò)中的文物信息資源,需要由一種可靠、標(biāo)準(zhǔn)化的自動處理方法進(jìn)行實(shí)體關(guān)系抽取,以便得到更好的利用。

        文章提出了一種利用信息資源中與內(nèi)容有關(guān)的關(guān)鍵詞進(jìn)行檢索,從外部知識庫中獲取實(shí)體關(guān)系后,使用遠(yuǎn)程監(jiān)督進(jìn)行自動實(shí)體關(guān)系抽取的方法?;谛畔①Y源內(nèi)容與結(jié)構(gòu)特征進(jìn)行關(guān)鍵詞抽取作為外部知識庫檢索詞,能夠有效地減少傳統(tǒng)遠(yuǎn)程監(jiān)督方法使用全知識庫進(jìn)行實(shí)體關(guān)系抽取時帶來的噪音問題?;谡Z義進(jìn)行的多知識庫實(shí)體關(guān)系對齊則能夠在融合多知識庫數(shù)據(jù)源的同時,減少外部知識庫實(shí)體關(guān)系長尾現(xiàn)象帶來的抽取關(guān)系稀疏的問題。在與單一關(guān)鍵詞抽取方法進(jìn)行的關(guān)系抽取對比試驗(yàn)中,文章方法在多個關(guān)鍵詞閾值下取得了較好的效果,融合了多種關(guān)鍵詞抽取方法在獲取信息資源主要內(nèi)容中的優(yōu)勢特點(diǎn),在大數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)較多的網(wǎng)絡(luò)環(huán)境中,提供了一種自動進(jìn)行實(shí)體關(guān)系抽取的方法。但是文章方法容易受到分詞結(jié)果正確率的影響,下一步研究還需要就多知識庫實(shí)體關(guān)系對齊的規(guī)則進(jìn)行進(jìn)一步優(yōu)化。

        猜你喜歡
        知識庫實(shí)體遠(yuǎn)程
        讓人膽寒的“遠(yuǎn)程殺手”:彈道導(dǎo)彈
        軍事文摘(2022年20期)2023-01-10 07:18:38
        遠(yuǎn)程工作狂綜合征
        英語文摘(2021年11期)2021-12-31 03:25:18
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
        遠(yuǎn)程詐騙
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        国产熟妇与子伦hd| 国产尤物精品福利视频| 少妇无码av无码专区| 亚洲午夜精品久久久久久人妖| 久久久久久免费毛片精品| 国产精品高清视亚洲乱码有限公司| 亚洲素人av在线观看| 一区在线视频免费播放| 免费无码中文字幕a级毛片| 99re6热在线精品视频播放6| 97久久成人国产精品免费 | 在线观看亚洲av每日更新影片 | 国产一区二区丰满熟女人妻| 国产av三级精品车模| 国产在线观看午夜视频| 精品人妻一区二区三区久久| 精品国产综合区久久久久久 | 亚洲av一区二区三区网站| 色婷婷精品久久二区二区蜜桃| 香蕉人人超人人超碰超国产| 婷婷九月丁香| 91狼友在线观看免费完整版| 亚洲天堂av大片暖暖| 亚洲麻豆视频免费观看| 欧美成人精品三级网站| 亚洲熟妇色xxxxx欧美老妇y| 免费毛片性天堂| 亚洲一级天堂作爱av| av无码国产精品色午夜| 中文字幕熟妇人妻在线视频| 国产免费专区| 国产精品区二区东京在线| 亚洲国产成人精品无码区在线播放| 亚洲欧美另类激情综合区| 久久se精品一区二区国产| 国产精品一区二区三区成人| 无套熟女av呻吟在线观看| 亚洲日韩精品欧美一区二区一| 2021国内精品久久久久精免费| 精品国产av一区二区三区| 日本在线观看一区二区三|