劉慶霞,李俊宥,程龔
南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023
知識(shí)圖譜可描述實(shí)體屬性及實(shí)體間關(guān)系,提供豐富的知識(shí)。這種結(jié)構(gòu)化的知識(shí)表示有助于數(shù)據(jù)融合與推理,便于應(yīng)用對(duì)信息進(jìn)行智能化處理。知識(shí)圖譜已成為大數(shù)據(jù)環(huán)境下一種常用的數(shù)據(jù)形式,有效支撐著各類互聯(lián)網(wǎng)應(yīng)用,在搜索、電商、社交網(wǎng)絡(luò)[1]等領(lǐng)域發(fā)揮著重要作用。在知識(shí)圖譜中,實(shí)體、屬性及其取值構(gòu)成了描述該實(shí)體的一條三元組,DBpedia和Wikidata等知名知識(shí)圖譜中包含的三元組總量達(dá)到十億級(jí),一些實(shí)體被許多三元組描述,例如,DBpedia中描述實(shí)體Barack Obama的三元組有一千多條。然而,在基于知識(shí)圖譜為終端用戶提供信息服務(wù)的應(yīng)用中,為了避免用戶信息過(guò)載,信息呈現(xiàn)空間通常有限,例如谷歌的知識(shí)卡片僅能呈現(xiàn)少量三元組,描述實(shí)體的三元組數(shù)量往往超過(guò)應(yīng)用允許的限制。
研究者將解決上述問(wèn)題的方法稱作實(shí)體摘要(entity summarization,ES),目標(biāo)是從知識(shí)圖譜中描述實(shí)體的所有三元組中選取一個(gè)最優(yōu)子集作為摘要呈現(xiàn),在給定的容量限制內(nèi)為用戶提供實(shí)體的最關(guān)鍵信息。實(shí)體摘要已為多種下游應(yīng)用提供了支持[2-3]?,F(xiàn)有研究已提出多種實(shí)體摘要方法,并實(shí)現(xiàn)了各類實(shí)體摘要系統(tǒng)。實(shí)體摘要系統(tǒng)通常是對(duì)多種實(shí)體摘要技術(shù)特征(以下簡(jiǎn)稱摘要特征)的綜合,不同摘要特征體現(xiàn)了實(shí)體摘要關(guān)注的不同方面,例如實(shí)體摘要系統(tǒng)FACES-E[4]綜合了頻度、信息度和多樣度等摘要特征。參考文獻(xiàn)[5]對(duì)現(xiàn)有實(shí)體摘要系統(tǒng)及其覆蓋的摘要特征進(jìn)行了較詳盡的介紹。
相比于對(duì)實(shí)體摘要方法和系統(tǒng)的研究,與實(shí)體摘要評(píng)測(cè)相關(guān)的工作較少。評(píng)測(cè)對(duì)于實(shí)體摘要問(wèn)題的研究具有長(zhǎng)遠(yuǎn)意義,摘要系統(tǒng)效果的比較、摘要特征效用的評(píng)價(jià)等都亟須評(píng)測(cè)工作的支撐。近期開(kāi)展的一項(xiàng)評(píng)測(cè)工作ESBM(entity summarization benchmark)[6]提供了目前規(guī)模最大的實(shí)體摘要評(píng)測(cè)集,并基于該評(píng)測(cè)集對(duì)9個(gè)實(shí)體摘要系統(tǒng)進(jìn)行了評(píng)測(cè)和比較。ESBM以黑盒的形式評(píng)測(cè)實(shí)體摘要系統(tǒng)的效果,但未能解釋設(shè)計(jì)復(fù)雜的摘要系統(tǒng)表現(xiàn)出的具體效果的深層原因。為了推動(dòng)摘要系統(tǒng)不斷改進(jìn),研究者需要深入分析摘要系統(tǒng)的效果,理解系統(tǒng)各組件的具體效用。因此,有必要以白盒形式解釋摘要系統(tǒng)的效果,從細(xì)粒度分析各項(xiàng)摘要特征的有效性。
為此,本文在ESBM的基礎(chǔ)上,提出對(duì)實(shí)體摘要系統(tǒng)進(jìn)行解釋性評(píng)測(cè),這項(xiàng)嘗試被稱為iESBM(interpretive ESBM)。相關(guān)代碼和數(shù)據(jù)已發(fā)布在GitHub,并基于ODC-By協(xié)議開(kāi)源。本文仍以通用型實(shí)體摘要系統(tǒng)為研究對(duì)象,但關(guān)注更細(xì)粒度層面的分析,從摘要特征的角度對(duì)摘要系統(tǒng)的效果進(jìn)行解釋。具體而言,對(duì)于每種摘要特征,使用特征效用率(feature effectiveness ratio,F(xiàn)ER)度量該摘要特征在標(biāo)準(zhǔn)摘要中的顯示度,使用特征顯著率(feature significance ratio,F(xiàn)SR)度量該摘要特征在系統(tǒng)生成摘要中的顯示度。FER和FSR分別量化了標(biāo)準(zhǔn)摘要和摘要系統(tǒng)生成摘要的特點(diǎn),將兩者進(jìn)行對(duì)比,便可從摘要特征的維度對(duì)摘要系統(tǒng)的效果進(jìn)行一定程度的解釋。
本文主要貢獻(xiàn)包括以下3個(gè)方面。
● 提出實(shí)體摘要的解釋性評(píng)測(cè)指標(biāo):本文提出計(jì)算摘要特征的FER和FSR,并具體應(yīng)用于現(xiàn)有實(shí)體摘要系統(tǒng)常用的4種三元組級(jí)特征和兩種摘要級(jí)特征。
● 細(xì)粒度分析3個(gè)評(píng)測(cè)集的標(biāo)準(zhǔn)摘要:本文分析標(biāo)準(zhǔn)摘要的FER,從不同的摘要特征維度刻畫標(biāo)準(zhǔn)摘要具有的性質(zhì)。
● 對(duì)11個(gè)實(shí)體摘要系統(tǒng)進(jìn)行解釋性評(píng)測(cè):本文分析9個(gè)非監(jiān)督實(shí)體摘要系統(tǒng)和兩個(gè)有監(jiān)督實(shí)體摘要系統(tǒng)生成摘要的FSR,將結(jié)果與FER對(duì)比,從摘要特征維度解釋這些摘要系統(tǒng)的效果。
對(duì)現(xiàn)有實(shí)體摘要系統(tǒng)的詳細(xì)介紹可參見(jiàn)參考文獻(xiàn)[5]。本文關(guān)注通用型實(shí)體摘要系統(tǒng),這類摘要系統(tǒng)可被廣泛用于各類場(chǎng)景,并非為特定領(lǐng)域、應(yīng)用或用戶定制。現(xiàn)有通用型實(shí)體摘要系統(tǒng)大多采用非監(jiān)督方法,利用各種模型集成多種摘要特征。例如,RELIN[7]基于三元組間的隨機(jī)游走綜合信息度和相關(guān)度對(duì)三元組進(jìn)行排序。DIVERSUM[8]基于屬性的多樣度和流行度生成內(nèi)容多樣化的摘要。FACES[9]及其擴(kuò)展FACES-E[4]基于詞袋模型計(jì)算三元組間的相似度,對(duì)三元組進(jìn)行聚類,并從不同聚類中選擇信息度和流行度較高的三元組。CD[10]通過(guò)構(gòu)造并求解二次背包問(wèn)題來(lái)選擇高信息度和多樣度的三元組。LinkSUM[11]對(duì)PageRank值和反向鏈接值進(jìn)行線性組合。BAFREC[12]將三元組劃分為兩個(gè)層面,元信息層面的三元組根據(jù)其內(nèi)容在本體中的深度進(jìn)行排序,數(shù)據(jù)層面的三元組根據(jù)流行度進(jìn)行排序。還有一些方法采用了更復(fù)雜的模型,例如,ES-LDA[13]、ES-LDAext[14]和MPSUM[15]等系統(tǒng)引入了主題模型隱含狄利克雷分布(latent Dirichlet allocation,LDA),而KAFCA[16]采用了形式概念分析(formal concept analysis,F(xiàn)CA)。還有一些工作[17-18]嘗試了有監(jiān)督的實(shí)體摘要方法,采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,從訓(xùn)練集中的標(biāo)準(zhǔn)摘要學(xué)習(xí)出摘要生成模型。
實(shí)體摘要研究者已經(jīng)構(gòu)建了一些評(píng)測(cè)集[6,9,19-21],這些評(píng)測(cè)集為通用型實(shí)體摘要系統(tǒng)的評(píng)價(jià)提供了標(biāo)準(zhǔn)摘要。然而,對(duì)實(shí)體摘要系統(tǒng)的全面評(píng)測(cè)仍較為少見(jiàn),近期的ESBM工作[6]對(duì)9個(gè)非監(jiān)督實(shí)體摘要系統(tǒng)進(jìn)行了評(píng)測(cè),這些摘要系統(tǒng)由各類摘要特征綜合而成,包括ESBM在內(nèi)的現(xiàn)有評(píng)測(cè)僅以黑盒的方式對(duì)摘要系統(tǒng)進(jìn)行總體效果的評(píng)測(cè)和比較,并未深入分析各摘要特征對(duì)總體效果所起到的作用。鑒于現(xiàn)有評(píng)測(cè)工作的這一局限性,本文提出新的評(píng)測(cè)指標(biāo),使實(shí)體摘要系統(tǒng)的評(píng)測(cè)不再局限于粗粒度的總體效果對(duì)比,而是更細(xì)粒度地從摘要特征維度對(duì)摘要系統(tǒng)的效果進(jìn)行解釋。
知識(shí)圖譜的一種典型格式是資源描述框架(resource description framework,RDF)[22],這類知識(shí)圖譜又被稱作RDF圖。一個(gè)RDF圖T是由形式為<主語(yǔ), 謂語(yǔ), 賓語(yǔ)>的三元組構(gòu)成的集合,這些三元組描述的所有實(shí)體構(gòu)成的集合記為E。對(duì)于一個(gè)實(shí)體e∈E,其描述Desc(e)?T由所有以e為主語(yǔ)或賓語(yǔ)的三元組構(gòu)成。一個(gè)三元組t∈Desc(e)可寫作
其中,pred(t)-表示pred(t)的反屬性。由此,描述實(shí)體e的三元組t∈Desc(e)可簡(jiǎn)化表示為屬性取值對(duì)
實(shí)體e的摘要S是e的描述的子集,即S?Desc(e),包含至多k個(gè)三元組。本文用Sc表示由摘要系統(tǒng)為實(shí)體e生成的待評(píng)測(cè)摘要,Sg表示e的一個(gè)標(biāo)準(zhǔn)摘要。需要注意的是,實(shí)體可能有多個(gè)標(biāo)準(zhǔn)摘要,因?yàn)樵u(píng)測(cè)集通常會(huì)提供多位專家獨(dú)立標(biāo)注的標(biāo)準(zhǔn)摘要,本文將e的所有標(biāo)準(zhǔn)摘要的集合記為SG。
對(duì)于實(shí)體摘要系統(tǒng)中的一個(gè)摘要特征,本文計(jì)算兩項(xiàng)指標(biāo):特征效用率和特征顯著率,分別用于分析標(biāo)準(zhǔn)摘要和待評(píng)測(cè)摘要,再通過(guò)兩者的比較來(lái)解釋摘要系統(tǒng)的效果。本文將現(xiàn)有摘要特征分為兩類:三元組級(jí)特征和摘要級(jí)特征。這兩類特征的FER和FSR的計(jì)算方式略有不同。
(1)三元組級(jí)特征的評(píng)測(cè)指標(biāo)
三元組級(jí)特征為每個(gè)三元組t∈Desc(e)計(jì)算一個(gè)打分,記作TScore(t)。例如,屬性頻度就是一種常用的三元組級(jí)特征,若該特征在摘要中確實(shí)有效,即高頻度(或低頻度)的屬性確實(shí)更常被選入摘要S,則應(yīng)觀察到出現(xiàn)在S中的三元組的TScore(即屬性頻度)均值高于(或低于)實(shí)體描述Desc(e)中的三元組的TScore均值。具體而言,實(shí)體描述Desc(e)與摘要S在上述均值上的差異可表示為:
對(duì)計(jì)算結(jié)果R的觀察主要在于其偏離1的方向(即高于或低于1)以及偏離程度。基于R,三元組級(jí)特征的FER和FSR的定義如下。
給定實(shí)體e的所有標(biāo)準(zhǔn)摘要的集合SG,三元組級(jí)摘要特征的FER定義為SG中各標(biāo)準(zhǔn)摘要相應(yīng)R值的均值:
給定摘要系統(tǒng)生成的待評(píng)測(cè)摘要Sc,三元組級(jí)特征的FSR定義為Sc相應(yīng)的R值:
(2)摘要級(jí)特征的評(píng)測(cè)指標(biāo)
摘要級(jí)特征將摘要包含的三元組集合視作整體來(lái)計(jì)算一個(gè)打分,記作SScore。例如,摘要多樣度就是一種常用的摘要級(jí)特征,若該特征在摘要中確實(shí)有效,即摘要S確實(shí)由較多樣(或較相似)的三元組構(gòu)成,則應(yīng)觀察到S的SScore值(即多樣度)高于(或低于)實(shí)體描述Desc(e)的SScore值。具體而言,實(shí)體描述Desc(e)與摘要S在上述值上的差異可表示為:
摘要級(jí)特征的FER和FSR同樣采用式(3)和式(4)計(jì)算,僅將其中R的計(jì)算方法替換為式(5)。
(3)FER與FSR的意義
FER與1的偏離情況體現(xiàn)了摘要特征在標(biāo)準(zhǔn)摘要中的顯示度,可部分體現(xiàn)摘要特征的有效性。類似地,F(xiàn)SR體現(xiàn)了摘要特征在待評(píng)測(cè)摘要上的顯示度。對(duì)于由多種摘要特征綜合而成的摘要系統(tǒng),這些摘要特征的FSR與相應(yīng)FER間的差異能夠?yàn)檎到y(tǒng)的最終效果提供部分解釋。
例如,某摘要系統(tǒng)以三元組屬性頻度為摘要特征,若該摘要特征的FER較高(遠(yuǎn)大于1),則表明標(biāo)準(zhǔn)摘要包含較多具有高頻度屬性的三元組,說(shuō)明該摘要特征是有效的,使用該摘要特征有助于提高摘要質(zhì)量。同時(shí),若該摘要特征的FSR也較高(遠(yuǎn)大于1),則表明該摘要系統(tǒng)生成的摘要確實(shí)選取了較多具有高頻度屬性的三元組。若FER和FSR都較高且較為接近,則屬性頻度這項(xiàng)摘要特征可作為該摘要系統(tǒng)取得較好效果的解釋之一。
本文選取若干常用摘要特征實(shí)現(xiàn)上述評(píng)測(cè)指標(biāo)。近期的評(píng)測(cè)工作ESBM[6]對(duì)9個(gè)非監(jiān)督實(shí)體摘要系統(tǒng)進(jìn)行了評(píng)測(cè),參考文獻(xiàn)[5]也全面介紹了現(xiàn)有實(shí)體摘要系統(tǒng)。本文從這些工作提及的實(shí)體摘要系統(tǒng)中選取摘要特征,包括4個(gè)三元組級(jí)特征和兩個(gè)摘要級(jí)特征,它們涵蓋了參考文獻(xiàn)[5]中歸納出的三大類摘要特征,即頻度/中心度特征、信息度特征、多樣/覆蓋度特征。
(1)三元組級(jí)特征
本文具體實(shí)現(xiàn)了4個(gè)三元組級(jí)特征,其TScore的計(jì)算方式互不相同,分別記為屬性局部頻度(local frequency of property,LFoP)、謂語(yǔ)全局頻度(global frequency of predicate,GFoP)、取值全局頻度(global frequency of value,GFoV)和屬性取值對(duì)的信息度(informativeness of propertyvalue,IoPV)。
摘要系統(tǒng)DIVERSUM[8]和LinkSUM[11]采用三元組的LFoP作為摘要特征。對(duì)于實(shí)體描述中的三元組t∈Desc(e),該摘要特征計(jì)算了三元組屬性在實(shí)體描述中出現(xiàn)的次數(shù):
摘要系統(tǒng)LinkSUM[11]和BAFREC[12]采用三元組的GFoP作為摘要特征。對(duì)于實(shí)體描述中的三元組t∈Desc(e),該摘要特征計(jì)算了三元組謂語(yǔ)在RDF圖T中出現(xiàn)的次數(shù):
摘要系統(tǒng)FACES[9]、FACES-E[4]和BAFREC[12]采用三元組的GFoV作為摘要特征。對(duì)于實(shí)體描述中的三元組t∈Desc(e),該摘要特征計(jì)算了取值val(t)在RDF圖T中出現(xiàn)的次數(shù),即RDF圖中頂點(diǎn)val(t)的度數(shù),對(duì)該值取對(duì)數(shù),以校正過(guò)于傾斜的度數(shù)分布,于是得到:
摘 要 系 統(tǒng)RELIN[7]、FACES[9]、FACES-E[4]和CD[10]采用三元組的IoPV作為摘要特征。對(duì)于實(shí)體描述中的三元組t∈Desc(e),該摘要特征考慮了RDF圖描述的所有實(shí)體E,計(jì)算了“屬性取值對(duì)
(2)摘要級(jí)特征
本文具體實(shí)現(xiàn)了兩個(gè)摘要級(jí)特征,其SScore的計(jì)算方式不同,分別記為屬性多樣度(diversity of property,DoP)和取值多樣度(diversity of value,DoV)。
摘要系統(tǒng)DIVERSUM[8]和MPSUM[15]通過(guò)避免選取屬性相同的三元組來(lái)提高摘要多樣性。本文將這一思路轉(zhuǎn)化為摘要S的一種SScore值計(jì)算方式,定義S的DoP為S中三元組包含的獨(dú)特屬性的占比:
摘要系統(tǒng)FACES[9]、FACES-E[4]和CD[10]通過(guò)避免選取取值相似的三元組來(lái)提高摘要多樣性,相似性計(jì)算通?;谌≈档奈谋拘问?。本文將這一思路轉(zhuǎn)化為摘要S的一種SScore值計(jì)算方式,定義S的DoV為S中兩兩取值的文本差異度的均值:
其中,ISub[23]是常用的字符串相似度度量,ISub(val(ti), val(tj))返回取值val(ti)和val(tj)文本形式的相似度,范圍為0~1。具體到RDF圖中取值的文本形式,對(duì)于字面量,取其字面形式(lexical form);對(duì)于非字面量,首先檢索其rdfs:label值,若檢索失敗,則取其本地名稱(local name)。
本文采用實(shí)體摘要領(lǐng)域常用且規(guī)模最大的兩個(gè)評(píng)測(cè)集:ESBM和FED。
ESBM v1.2是目前最新的實(shí)體摘要評(píng)測(cè)集[6],分為兩個(gè)評(píng)測(cè)子集:ESBM-D和ESBM-L。ESBM-D中的125個(gè)實(shí)體取自百科知識(shí)圖譜DBpedia 2015-10,ESBM-L中的50個(gè)實(shí)體取自電影知識(shí)圖譜LinkedMDB。該評(píng)測(cè)集為每個(gè)實(shí)體描述提供由不同專家標(biāo)注的標(biāo)準(zhǔn)摘要,包括6個(gè)以k=5為容量限制的標(biāo)準(zhǔn)摘要和6個(gè)以k=10為容量限制的標(biāo)準(zhǔn)摘要。
FED是為評(píng)價(jià)FACES而專門設(shè)計(jì)的評(píng)測(cè)集[9]。該評(píng)測(cè)集中的50個(gè)實(shí)體來(lái)自百科知識(shí)圖譜DBpedia 3.9。為了匹配FACES的處理能力,F(xiàn)ED中的實(shí)體描述僅包含取值為實(shí)體的三元組,不包含取值為類型或字面量的三元組。FED為每個(gè)實(shí)體描述提供5~8個(gè)以k=5為容量限制的標(biāo)準(zhǔn)摘要(均值為7.32)和5~8個(gè)以k=10為容量限制的標(biāo)準(zhǔn)摘要(均值為7.16)。
ESBM v1.2提供了對(duì)數(shù)據(jù)的五等份劃分,以支持統(tǒng)一的五折交叉驗(yàn)證,每折中60%、20%、20%的實(shí)體分別用于訓(xùn)練、驗(yàn)證、測(cè)試。本文采用同樣方式對(duì)FED數(shù)據(jù)進(jìn)行劃分。
本節(jié)對(duì)如下11個(gè)實(shí)體摘要系統(tǒng)進(jìn)行評(píng)測(cè)。
● 9個(gè)非監(jiān)督的實(shí)體摘要系統(tǒng),這些系統(tǒng)也在ESBM[6]的評(píng)測(cè)范圍內(nèi),即:RELIN[7]、DIVERSUM[8]、FACES[9]、FACES-E[4]、CD[10]、LinkSUM[11]、BAFREC[12]、KAFCA[16]和MPSUM[15]。
● 兩個(gè)有監(jiān)督的實(shí)體摘要系統(tǒng):ESA[17]和DeepLENS[18]。
對(duì)于9個(gè)非監(jiān)督的實(shí)體摘要系統(tǒng),本文使用其在ESBM[6]中的實(shí)現(xiàn)及配置,具體而言:RELIN、CD和LinkSUM系統(tǒng)采用超參數(shù)對(duì)多種摘要特征進(jìn)行線性組合,本文在0和1之間以0.01為步長(zhǎng)調(diào)整這些超參數(shù)。對(duì)于兩個(gè)有監(jiān)督的實(shí)體摘要系統(tǒng),采用其開(kāi)源實(shí)現(xiàn)及配置,在模型訓(xùn)練時(shí)采用早停機(jī)制,根據(jù)驗(yàn)證集上的性能在1~50的范圍內(nèi)選擇訓(xùn)練迭代次數(shù)。
本節(jié)首先展現(xiàn)傳統(tǒng)的非解釋性評(píng)測(cè)結(jié)果,然后基于FER分析各摘要特征的有效性,最后對(duì)比FSR和FER,并解釋各實(shí)體摘要系統(tǒng)的效果。限于篇幅,本節(jié)僅展現(xiàn)容量限制k=5時(shí)的評(píng)測(cè)結(jié)果,k=10時(shí)的結(jié)果請(qǐng)參見(jiàn)GitHub。
本文沿用ESBM[6]采用的評(píng)測(cè)指標(biāo)F值(F-score)對(duì)實(shí)體摘要系統(tǒng)的總體效果進(jìn)行評(píng)價(jià)。具體而言,針對(duì)實(shí)體e,將待評(píng)測(cè)摘要Sc與各標(biāo)準(zhǔn)摘要Sg∈SG分別進(jìn)行比較并計(jì)算F值,再對(duì)這些F值求均值,作為該待評(píng)測(cè)摘要的最終F值。這里采用以0.01為統(tǒng)計(jì)顯著水平的雙邊雙樣本t檢驗(yàn),其零假設(shè)為:兩個(gè)摘要系統(tǒng)在評(píng)測(cè)集上的平均F值相同。表1給出了各摘要系統(tǒng)在各評(píng)測(cè)集上F值的均值和標(biāo)準(zhǔn)差。表1還給出了兩兩系統(tǒng)間F值對(duì)比的t檢驗(yàn)結(jié)果,若拒絕零假設(shè),則用箭頭標(biāo)出,向上的箭頭表示當(dāng)前系統(tǒng)顯著高于對(duì)比系統(tǒng),向下的箭頭表示當(dāng)前系統(tǒng)顯著低于對(duì)比系統(tǒng),方塊表示兩者差異不顯著。由于FACES和LinkSUM無(wú)法處理取值為類型或字面量的三元組,因此表1未給出它們?cè)贓SBM-D和ESBM-L上的結(jié)果。
可以看出,作為采用深度神經(jīng)網(wǎng)絡(luò)的系統(tǒng),DeepLENS在3個(gè)評(píng)測(cè)集上顯著優(yōu)于其他系統(tǒng)。此外,BAFREC和ESA在ESBM-D和ESBM-L上取得了較優(yōu)結(jié)果,而ESA和LinkSUM在FED上取得了較有競(jìng)爭(zhēng)力的結(jié)果。
通過(guò)表1,可以對(duì)不同摘要系統(tǒng)的效果進(jìn)行粗粒度的對(duì)比。然而,這些結(jié)果無(wú)法對(duì)每個(gè)摘要系統(tǒng)的效果進(jìn)行具體解釋。接下來(lái),本文通過(guò)FER和FSR進(jìn)行細(xì)粒度的解釋。
對(duì)于第3.3節(jié)介紹的6個(gè)摘要特征,首先分別計(jì)算其在3個(gè)評(píng)測(cè)集上的FER。這里采用以0.01為統(tǒng)計(jì)顯著水平的雙邊單樣本t檢驗(yàn),其零假設(shè)為:摘要特征的FER均值等于1。表2給出了各摘要特征在各評(píng)測(cè)集上FER的均值和標(biāo)準(zhǔn)差。若t檢驗(yàn)結(jié)果顯示拒絕零假設(shè),則用箭頭標(biāo)出,向上的箭頭表示FER的均值顯著高于1,向下的箭頭表示FER的均值顯著低于1。因此,箭頭直接標(biāo)記出了有效的摘要特征。
(1)LFoP與DoP
這兩個(gè)摘要特征在3個(gè)評(píng)測(cè)集上的FER均值都與1存在顯著差異,且差異的方向在各評(píng)測(cè)集上一致。
表1 各評(píng)測(cè)集上的F值(均值±標(biāo)準(zhǔn)差),均值顯著高于或低于其他摘要系統(tǒng)的t檢驗(yàn)結(jié)果(即p<0.01)分別用↑或↓標(biāo)出;不具備顯著差異的結(jié)果用?標(biāo)出;不適于比較的用-標(biāo)出
DoP的FER均值顯著高于1,表明標(biāo)準(zhǔn)摘要通常內(nèi)容較為多樣,包含不同屬性。
LFoP的FER均值顯著低于1,表明標(biāo)準(zhǔn)摘要包含較多低頻度屬性。然而,該結(jié)論可能是受上述屬性多樣度影響的結(jié)果。具體而言,局部頻度高的屬性通常在實(shí)體描述中涉及較多三元組,而標(biāo)準(zhǔn)摘要對(duì)多樣度的傾向?qū)?dǎo)致這些具有相同屬性的三元組中僅有一個(gè)被選入標(biāo)準(zhǔn)摘要,從而降低了LFoP的FER。為此,本文追加了一個(gè)實(shí)驗(yàn),嘗試消除多樣度帶來(lái)的影響。該實(shí)驗(yàn)在FER的計(jì)算中,對(duì)實(shí)體描述中具有相同屬性的不同三元組僅計(jì)一次屬性頻度值,這樣重新計(jì)算的FER在各評(píng)測(cè)集上都顯著高于1,表明由于追求多樣度而選擇不同屬性時(shí),標(biāo)準(zhǔn)摘要實(shí)際上仍偏向于選擇局部頻度較高的屬性,如rdf:type和dct:subject。
(2)GFoV與IoPV
這兩個(gè)摘要特征在3個(gè)評(píng)測(cè)集上的FER均值都與1存在顯著差異,但在不同評(píng)測(cè)集上的差異方向有所不同。
GFoV在ESBM-L和FED上的FER均值顯著高于1,表明標(biāo)準(zhǔn)摘要傾向于選擇取值全局頻度較高的三元組。在ESBM-L的實(shí)體描述中,大部分取值是實(shí)體(83%);而FED中所有取值都是實(shí)體。因此,這些評(píng)測(cè)集上的高FER表明標(biāo)準(zhǔn)摘要更偏好流行度高的實(shí)體。然而,在ESBM-D上該摘要特征的FER均值顯著低于1,這是由于ESBM-D的組成與另外兩個(gè)評(píng)測(cè)集不同,其實(shí)體描述中大部分取值(63%)為類型或字面量,標(biāo)準(zhǔn)摘要傾向于選擇全局頻度較低的類型和字面量,以提供更具體的信息。
IoPV與GFoV截然相反,其FER均值在ESBM-D上顯著高于1,而在ESBM-L和FED上顯著低于1。這一結(jié)果是符合預(yù)期的,因?yàn)镮oPV和GFoV在原理上通常起到相反作用:包含全局頻度較低取值的三元組的信息量通常較大。
(3)GFoP和DoV
這兩個(gè)摘要特征在一些評(píng)測(cè)集上的FER均值與1的差異不顯著。
GFoP在ESBM-D上的FER均值顯著低于1,表明標(biāo)準(zhǔn)摘要選入了較多全局頻度不高的屬性。類似于之前對(duì)LFoP的分析,GFoP呈現(xiàn)這一現(xiàn)象的原因同樣是受到標(biāo)準(zhǔn)摘要傾向于選擇多樣屬性的影響。通過(guò)追加實(shí)驗(yàn)消除多樣度帶來(lái)的影響之后,ESBM-D和ESBM-L上GFoP的FER均值顯著高于1,表明由于追求多樣度而選擇不同屬性時(shí),標(biāo)準(zhǔn)摘要實(shí)際上仍傾向于選擇全局頻度較高的屬性,如rdf:type、dct:subject、movie:director和movie:actor。然而,在FED上,重新計(jì)算的FER均值與1并無(wú)顯著差異。
DoV在ESBM-D和ESBM-L上的FER均值顯著高于1,在FED上略高于1,體現(xiàn)了標(biāo)準(zhǔn)摘要對(duì)取值多樣度的偏好。但上述差異的絕對(duì)值并不大,這是由于實(shí)體描述中取值相似的情況本就不多見(jiàn)。
本節(jié)嘗試基于6個(gè)摘要特征初步解釋11個(gè)實(shí)體摘要系統(tǒng)在各評(píng)測(cè)集上的摘要效果。對(duì)于各摘要系統(tǒng)在各評(píng)測(cè)集上生成的摘要,計(jì)算各摘要特征的FSR。對(duì)同一摘要特征的FSR與FER進(jìn)行比較,采用以0.01為統(tǒng)計(jì)顯著水平的雙邊單樣本t檢驗(yàn),其零假設(shè)為:摘要特征的FSR均值和FER均值相等。表3、表4和表5分別給出了評(píng)測(cè)集ESBM-D、ESBM-L和FED上各系統(tǒng)各摘要特征FSR的均值和標(biāo)準(zhǔn)差。若接受零假設(shè),則標(biāo)記為方塊,稱為“相符”,即待評(píng)測(cè)摘要(對(duì)應(yīng)于FSR值)與標(biāo)準(zhǔn)摘要(對(duì)應(yīng)于FER值)在該摘要特征上的顯示度一致。
表2 各評(píng)測(cè)集上的FER(均值±標(biāo)準(zhǔn)差),均值顯著高于或低于1的結(jié)果(即p<0.01)分別用↑或↓標(biāo)出
(1)非監(jiān)督摘要系統(tǒng)
對(duì)于這些摘要系統(tǒng),直接將其FSR結(jié)果與系統(tǒng)設(shè)計(jì)用到的摘要特征進(jìn)行對(duì)照分析。
作為較早的實(shí)體摘要系統(tǒng)之一,RELIN在3個(gè)評(píng)測(cè)集上的F值都低于其他系統(tǒng)。從FSR可分析出該結(jié)果的兩個(gè)原因。其一,RELIN的IoPV特征的FSR在各摘要系統(tǒng)中最高(同時(shí)GFoV的FSR最低),事實(shí)上RELIN在設(shè)計(jì)時(shí)便強(qiáng)調(diào)偏好屬性取值對(duì)信息度高(取值全局頻度低)的三元組。對(duì)于IoPV特征,RELIN在ESBM-L和FED上的FSR與該摘要特征的FER在1的兩側(cè),即RELIN生成摘要的IoPV與標(biāo)準(zhǔn)摘要的傾向相反;而在ESBM-D上,其FSR過(guò)高,遠(yuǎn)超標(biāo)準(zhǔn)摘要對(duì)該摘要特征的傾向程度。例如,在ESBM-L上,RELIN常選擇屬性movie:filmid和movie:actor_actorid等來(lái)描述實(shí)體唯一標(biāo)識(shí)的屬性,這些屬性信息度極高,但一般用戶很少希望在摘要中看到,因此極少被選入標(biāo)準(zhǔn)摘要。其二,RELIN的DoV特征的FSR在各摘要系統(tǒng)中最低,且與FER分布在1值的兩側(cè)。這是由于RELIN的設(shè)計(jì)傾向于取值相似的三元組,造成摘要內(nèi)容的冗余并降低DoV。CD系統(tǒng)作為對(duì)RELIN的改進(jìn),其F值略高于RELIN。從FSR結(jié)果可知,原因之一是:CD相對(duì)于RELIN在多樣度上的效果更好,CD的DoV特征的FSR非常高,遠(yuǎn)高于RELIN的FSR,這得益于CD最大化取值多樣度的設(shè)計(jì)。然而,由于同樣傾向于選取屬性取值對(duì)信息度高的三元組,CD的IoPV特征的FSR也顯得過(guò)高。
表3 評(píng)測(cè)集ESBM-D上的FSR(均值±標(biāo)準(zhǔn)差),與FER均值不存在顯著差異的項(xiàng)用?標(biāo)記
表4 評(píng)測(cè)集ESBM-L上的FSR(均值±標(biāo)準(zhǔn)差),與FER均值不存在顯著差異的項(xiàng)用?標(biāo)記
表5 評(píng)測(cè)集FED上的FSR(均值±標(biāo)準(zhǔn)差),與FER均值不存在顯著差異的項(xiàng)用?標(biāo)記
FACES和FACES-E通常具有比RELIN和CD更高的F值。FACES-E在ESBM-L上的F值顯著優(yōu)于RELIN和CD,F(xiàn)ACES-E的GFoV和IoPV特征的FSR與FER相符,這是由該系統(tǒng)在信息度和取值流行度之間相互平衡導(dǎo)致的。然而在ESBM-D和FED評(píng)測(cè)集上,F(xiàn)ACES-E的GFoV特征的FSR過(guò)高,對(duì)取值頻度的偏好過(guò)強(qiáng)。例如,F(xiàn)ACES-E常選擇以owl:Thing為類型取值的三元組,這種三元組意義不大。在FED評(píng)測(cè)集上,F(xiàn)ACES和FACES-E的DoP和DoV特征的FSR與FER相符,這是由于這兩個(gè)系統(tǒng)都通過(guò)三元組聚類有效提升了摘要多樣度。三元組聚類技術(shù)在FACES中用于處理取值為實(shí)體的三元組,而FACES-E通過(guò)自動(dòng)識(shí)別字面量類型將該技術(shù)擴(kuò)展到取值為字面量的三元組。然而,對(duì)于ESBM-D和ESBM-L這兩個(gè)包含取值為字面量的評(píng)測(cè)集,F(xiàn)ACES-E的DoP和DoV特征的FSR有時(shí)與FER不完全相符,這說(shuō)明FACES-E對(duì)FACES的擴(kuò)展尚不夠完善。
LinkSUM系統(tǒng)僅處理取值為實(shí)體的三元組。在FED評(píng)測(cè)集上,LinkSUM在非監(jiān)督實(shí)體摘要系統(tǒng)中的F值最高,其IoPV的FSR最低而GFoV的FSR高于大部分系統(tǒng),并且這兩個(gè)摘要特征的FSR與1的偏離方向均與FER一致。LinkSUM主要設(shè)計(jì)原則為選擇PageRank值較高的實(shí)體取值,這通常對(duì)應(yīng)取值較高的全局頻度和較低的自信息,其GFoV和IoPV的FSR印證了該設(shè)計(jì)原則在最終生成的摘要中起到了正面效果。然而,LinkSUM的DoP特征的FSR相對(duì)于FER偏低,這是因?yàn)槠湓O(shè)計(jì)未考慮屬性多樣度。
KAFCA系統(tǒng)是ESBM-D上表現(xiàn)較好的非監(jiān)督實(shí)體摘要系統(tǒng)之一。在ESBM-D評(píng)測(cè)集上,KAFCA的DoP和DoV特征的FSR都與FER相符,并且在其他摘要特征上的FSR與1的偏離方向均與FER相同。這是因?yàn)镵AFCA是基于FCA的設(shè)計(jì)原理實(shí)現(xiàn)的。KAFCA優(yōu)先選擇局部頻度低的屬性,這些屬性通常全局頻度也較低,并對(duì)應(yīng)局部頻度較低的取值。KAFCA偶爾也選擇包含局部頻度較高詞匯的取值,這有助于選入一些盡管攜帶高頻度屬性但仍描述具體信息的三元組,同時(shí)避免過(guò)于強(qiáng)調(diào)屬性和取值多樣度。然而,這種機(jī)制在ESBM-L上效果不明顯,KAFCA的DoP和DoV特征的FSR相比于FER顯得過(guò)高。例如,ESBM-L中局部頻度較高的屬性movie:actor及其反向?qū)傩詍ovie:actor-被KAFCA完全摒棄,而標(biāo)準(zhǔn)摘要常選入這些屬性??梢?jiàn),由于缺乏對(duì)全局信息的感知,KAFCA無(wú)法對(duì)具體實(shí)體進(jìn)行進(jìn)一步區(qū)分。
BAFREC是非監(jiān)督實(shí)體摘要系統(tǒng)中在ESBM-D和ESBM-L上F值最高的系統(tǒng),在FED上的F值也較高。BAFREC將三元組分為兩個(gè)層面,采用不同的排序選取策略,但都有多樣度要求。對(duì)于元信息層面的三元組,BAFREC傾向于全局頻度高的屬性和全局頻度低的取值(類型或字面量);對(duì)于數(shù)據(jù)層面的三元組,則傾向于全局頻度高的取值(實(shí)體)。這些傾向與第5.2節(jié)分析的標(biāo)準(zhǔn)摘要的GFoP、GFoV、IoPV和DoP特征的FER較一致,因而印證了BAFREC的良好效果。然而,這些傾向并未充分體現(xiàn)在BAFREC的FSR上,這是由于本文實(shí)現(xiàn)的FSR尚未考慮對(duì)三元組的分層分析。
(2)有監(jiān)督摘要系統(tǒng)
對(duì)于這些采用深度學(xué)習(xí)模型的摘要系統(tǒng),其用到的摘要特征并不明顯,嘗試將其FSR結(jié)果與系統(tǒng)設(shè)計(jì)原理進(jìn)行對(duì)照分析。
DeepLENS在3個(gè)評(píng)測(cè)集上都取得了高于ESA的F值。而在摘要特征上,DeepLENS的LFoP、GFoP、GFoV和IoPV特征的FSR在3個(gè)評(píng)測(cè)集上大多比ESA更接近FER,即DeepLENS比ESA更準(zhǔn)確地?cái)M合了標(biāo)準(zhǔn)摘要的這些三元組級(jí)特征。在模型設(shè)計(jì)上,ESA將屬性和取值以符號(hào)的形式進(jìn)行處理,而DeepLENS使用文本形式,并借助預(yù)訓(xùn)練詞嵌入來(lái)理解屬性和取值的文本語(yǔ)義。對(duì)這一外部信息的利用可能使DeepLENS取得比ESA更好的效果。
ESA和DeepLENS的DoP和DoV特征的FSR總體上低于FER,這一結(jié)果并不意外,因?yàn)樗鼈兊脑O(shè)計(jì)中都未顯式考慮摘要級(jí)特征。在ESBM-D和ESBM-L評(píng)測(cè)集上,DeepLENS的DoP特征的FSR接近或高于FER,這是因?yàn)樵摲椒ㄔ谔幚韉ct:subject和movie:actor等局部頻度較高的屬性時(shí),由于包含這些屬性的大量三元組只有很少被選入標(biāo)準(zhǔn)摘要,訓(xùn)練后的模型簡(jiǎn)單回避了這些屬性。
圖1和圖2給出了各摘要系統(tǒng)為兩個(gè)實(shí)體描述生成的摘要,這兩個(gè)實(shí)體分別來(lái)自ESBM-D和ESBM-L評(píng)測(cè)集。RELIN系統(tǒng)將信息度最高的屬性filmid(三元組t1a)選入了摘要,然而該屬性從未出現(xiàn)在標(biāo)準(zhǔn)摘要中。RELIN系統(tǒng)生成的摘要中還包含互相冗余的三元組(如三元組t11和t14,三元組t1b和t1c)。CD系統(tǒng)避免了這種冗余,但同樣也將filmid(三元組t4e)選入了摘要。對(duì)于屬性writer,CD選擇了取值H. R. Christian(三元組t44),而FACES-E系統(tǒng)則在信息度和取值流行度的平衡下選擇了更優(yōu)的取值Leigh Chapman(三元組t33)。DIVERSUM系統(tǒng)重視屬性多樣度,卻較忽視對(duì)取值的篩選,導(dǎo)致選入不理想取值(如三元組t2b)或冗余取值(如三元組t21和t23)。MPSUM系統(tǒng)同樣重視屬性多樣度,但選擇的取值更易理解,盡管依然存在冗余(如三元組t7a和t7b,t7d和t7e)。KAFCA成功選到屬性為release date的三元組(t63),該三元組的屬性局部流行度較低且取值中包含局部流行度較高的詞匯“1981”。BAFREC系統(tǒng)通過(guò)設(shè)定超參數(shù)的方式固定從元信息層面的三元組中選擇兩個(gè),從數(shù)據(jù)層面的三元組中選擇3個(gè)。元信息層面三元組屬性通常為rdf:type或rdfs:label,這些三元組(如t51和t55,t5a和t5e)也確實(shí)常出現(xiàn)在標(biāo)準(zhǔn)摘要中。有監(jiān)督的兩個(gè)實(shí)體摘要系統(tǒng)ESA和DeepLENS生成的摘要質(zhì)量更高,盡管其中也存在一些冗余(如三元組t84和t85)。
圖1 各實(shí)體摘要系統(tǒng)為ESBM-D評(píng)測(cè)集的實(shí)體dbr:King_of_the_Moutain_(film)生成的摘要
圖2 各實(shí)體摘要系統(tǒng)為ESBM-L評(píng)測(cè)集的實(shí)體film:41408(即電影“The Spiral Staircase”)生成的摘要
本文嘗試對(duì)實(shí)體摘要系統(tǒng)進(jìn)行解釋性評(píng)測(cè),從摘要特征維度對(duì)摘要系統(tǒng)的效果進(jìn)行分析。通過(guò)計(jì)算6個(gè)常用摘要特征的FER,對(duì)3個(gè)評(píng)測(cè)集上的標(biāo)準(zhǔn)摘要進(jìn)行分析,總結(jié)出標(biāo)準(zhǔn)摘要的一些典型特點(diǎn):標(biāo)準(zhǔn)摘要常包含較多樣的屬性和取值,并傾向于頻度較高的屬性;在取值為實(shí)體的三元組中,傾向于較流行的實(shí)體取值;在取值為類型或字面量的三元組中,傾向于信息度較大即較低頻的內(nèi)容。這些發(fā)現(xiàn)為未來(lái)實(shí)體摘要系統(tǒng)的設(shè)計(jì)改進(jìn)提供了思路。本文通過(guò)計(jì)算11個(gè)系統(tǒng)的FSR,對(duì)這些系統(tǒng)生成摘要的效果進(jìn)行了分析,將FSR與FER對(duì)比,細(xì)粒度地揭示了各系統(tǒng)的部分優(yōu)缺點(diǎn):非監(jiān)督實(shí)體摘要系統(tǒng)在設(shè)計(jì)中顯式固定一組摘要特征,往往在不同評(píng)測(cè)集上表現(xiàn)迥異,泛化能力不足,并且常缺失一些有用摘要特征;有監(jiān)督實(shí)體摘要系統(tǒng)利用深度神經(jīng)網(wǎng)絡(luò)建模,在一定程度上克服了上述不足,避免了人工特征選擇,但現(xiàn)有模型仍較簡(jiǎn)單,對(duì)多樣度等摘要級(jí)特征的表示能力不足。
未來(lái)工作可對(duì)本文提出的評(píng)測(cè)指標(biāo)及其實(shí)現(xiàn)進(jìn)行擴(kuò)展。首先,本文僅實(shí)現(xiàn)了6個(gè)常用摘要特征,增加新的摘要特征有助于開(kāi)展更全面的分析。其次,由于本文提出的評(píng)測(cè)指標(biāo)依賴于標(biāo)準(zhǔn)摘要,增加新的評(píng)測(cè)集有助于對(duì)摘要系統(tǒng)的泛化能力開(kāi)展更全面的檢驗(yàn)。