孟旭陽 白海燕 梁 冰 王 莉
(中國科學(xué)技術(shù)信息研究所 北京 100038)
Automatic Indexing Concept Selection Method of English Documents Based on Semantic Perception
Meng Xuyang Bai Haiyan Liang Bing Wang Li
(Institute of Scientific and Technical of Information of China,Beijing 100038)
Abstract:[Purpose/Significance]In the era of resource digitalization, the literature service is changing to knowledge service. High-quality subject indexing is the foundation and key to improve the ability of literature knowledge services. Aiming at the low accuracy of automatic indexing of English scientific and technological literature, a concept selection optimization method based on semantic perception is proposed.[Method/Process]Based on the automatic subject indexing of knowledge organization system, word embedding in natural language processing is used to represent the semantic vector of concept and literature content, and then perform semantic perception and evaluation to achieve the selection of concept indexing results at the semantic level. This method adopts a technical method based on the combination of knowledge organization system and natural language processing, which makes up for the lack of semantic level, further reduces the impact of unrelated concepts, and improves the accuracy of concept indexing results.[Result/Conclusion]The experimental results show that the method in this paper has good semantic perception performance, effectively reduces irrelevant concepts, greatly improves the relevance of indexing results and literature, and provides valuable reference and support for the construction of scientific and technological literature resource knowledge service and related research.
Keywords:automatic indexing; concept selection; semantic perception; word embedding
近年來,隨著信息資源的迅速增長以及科技文獻(xiàn)服務(wù)需求的日益知識化,對科技文獻(xiàn)主題自動(dòng)標(biāo)引的準(zhǔn)確度提出了更高的要求。文獻(xiàn)主題的自動(dòng)標(biāo)引是對文獻(xiàn)數(shù)字資源進(jìn)行組織的有效手段,標(biāo)引的質(zhì)量直接影響到數(shù)字資源的質(zhì)量和利用[1],也是知識化服務(wù)重點(diǎn)需要解決的問題之一,具有重要的研究意義和較高的實(shí)用價(jià)值。
基于知識組織系統(tǒng)的自動(dòng)主題概念標(biāo)引可以建立不同術(shù)語表達(dá)形式的一致性規(guī)范概念,為不同術(shù)語之間提供語義關(guān)聯(lián),能夠提高概念的知識化關(guān)聯(lián),實(shí)現(xiàn)資源的組織化。然而,目前的文獻(xiàn)主題概念標(biāo)引結(jié)果并不理想,以基于英文超級科技詞表(STKOS)[2]的英文文獻(xiàn)主題概念自動(dòng)標(biāo)引系統(tǒng)[3]為例,經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),在英文科技文獻(xiàn)自動(dòng)標(biāo)引的概念遴選步驟中,一些與文獻(xiàn)主題內(nèi)容不相關(guān)的概念卻被保留在最終標(biāo)引結(jié)果中,忽略了概念結(jié)果與文獻(xiàn)之間的語義相關(guān)性分析,是自動(dòng)標(biāo)引質(zhì)量不佳的重要及主要原因。
為了進(jìn)一步提高標(biāo)引結(jié)果與文獻(xiàn)內(nèi)容的相關(guān)性,本文基于英文超級科技詞表(STKOS)的英文文獻(xiàn)主題標(biāo)引,提出了基于語義感知的自動(dòng)標(biāo)引概念遴選優(yōu)化方法。首先,通過運(yùn)用自然語言處理技術(shù),訓(xùn)練科技領(lǐng)域的詞向量的語言模型,建立了詞本身與文獻(xiàn)內(nèi)容之間的語義聯(lián)系。其次,構(gòu)建了基于多層注意力加權(quán)的文獻(xiàn)語義表示模型對文獻(xiàn)進(jìn)行表示。然后,對概念標(biāo)引結(jié)果和文獻(xiàn)內(nèi)容的兩個(gè)語義表示進(jìn)行感知評估,最后,基于語義相關(guān)性強(qiáng)度實(shí)現(xiàn)概念結(jié)果的遴選,從而獲得與文獻(xiàn)主題相關(guān)性高的優(yōu)選概念。在NSTL中隨機(jī)抽取的英文科技文獻(xiàn)數(shù)據(jù)上進(jìn)行的實(shí)驗(yàn)表明,本文方法在原標(biāo)引結(jié)果的基礎(chǔ)上可以有效地去除與文獻(xiàn)內(nèi)容不相關(guān)的標(biāo)引,提高概念標(biāo)引的質(zhì)量。
本文研究涉及到基于詞表的主題標(biāo)引和詞與文本語義表示的相關(guān)研究,分別總結(jié)這兩個(gè)領(lǐng)域相關(guān)工作。
1.1基于詞表的主題標(biāo)引基于詞表的概念標(biāo)引的基本流程為候選術(shù)語提取、規(guī)范概念映射、概念遴選[3-4]。在候選術(shù)語提取方面,抽詞技術(shù)的研究較多且較為成熟,包括基于統(tǒng)計(jì)學(xué)習(xí)方法[5-7]、基于語言分析方法[8-10]、基于統(tǒng)計(jì)和語言分析的混合方法[11-12]、基于機(jī)器學(xué)習(xí)和人工智能的方法等[13-15],能夠較好的提取關(guān)鍵詞。規(guī)范概念映射,該過程主要依賴詞表進(jìn)行。即首先將候選術(shù)語原型與詞表中的規(guī)范術(shù)語原型進(jìn)行匹配,獲得規(guī)范術(shù)語,其次根據(jù)詞表中已建立的術(shù)語與概念的對應(yīng)關(guān)系,實(shí)現(xiàn)術(shù)語到規(guī)范概念的映射,形成規(guī)范概念集。在概念遴選方面,現(xiàn)有方法根據(jù)術(shù)語來源位置、抽取頻次等統(tǒng)計(jì)特征和語言學(xué)規(guī)則計(jì)算得到的權(quán)重大小來確定概念與文獻(xiàn)的關(guān)聯(lián)強(qiáng)度,通過設(shè)置權(quán)重閾值、標(biāo)引深度閾值等遴選最終標(biāo)引的概念詞。此外,還利用禁用詞表、通用詞表等過濾領(lǐng)域相關(guān)性不高的概念詞,從而降低通用概念等噪音對標(biāo)引結(jié)果的影響[16]。這些概念遴選方法在一定程度上提升了標(biāo)引的效果,但經(jīng)統(tǒng)計(jì)分析,該步驟結(jié)果中仍有較多與文獻(xiàn)主題內(nèi)容語義不相關(guān),甚至是強(qiáng)不相關(guān)的概念結(jié)果被保留了下來。如何從語義層面進(jìn)一步去除這些與實(shí)際文獻(xiàn)內(nèi)容不相關(guān)的錯(cuò)誤標(biāo)引,對標(biāo)引質(zhì)量的進(jìn)一步提升有著重要意義。
1.2詞與文本語義向量表示文獻(xiàn)的語義理解是提高自動(dòng)標(biāo)引質(zhì)量的關(guān)鍵。在自然語言處理(Natural LanguageProcessing, NLP)領(lǐng)域,文本語義理解的首要任務(wù)就是詞與文本的表示。
詞是承載語義最基本的單元,傳統(tǒng)的獨(dú)熱表示(one-hot representation),無法反映單詞之間的語義關(guān)聯(lián),容易產(chǎn)生數(shù)據(jù)稀疏和維度災(zāi)難問題。近年來,深度學(xué)習(xí)技術(shù)席卷了自然語言處理領(lǐng)域,基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到詞向量的表示方法備受關(guān)注,該方法通過無監(jiān)督的機(jī)器學(xué)習(xí)方法從大規(guī)模無標(biāo)注語料中自動(dòng)學(xué)習(xí)句法和語義信息,克服了傳統(tǒng)獨(dú)熱表示的缺點(diǎn)。目前流行的詞向量表示模型有Mikolov等[17-18]提出的Word2vec 模型,Pennington等[19]出的GloVe模型和Bojanowski等[20]提出的FastText模型。上述詞向量模型能夠利用語料中詞的上下文信息將一個(gè)詞轉(zhuǎn)變成一個(gè)低維稠密向量,越相似的詞在向量空間中距離越近,詞的語義相關(guān)性可以很好的通過向量計(jì)算進(jìn)行量化?;谠~向量的神經(jīng)網(wǎng)絡(luò)模型也為多項(xiàng)自然語言處理任務(wù)帶來了性能的提升,甚至在多項(xiàng)任務(wù)中達(dá)到了目前最好的效果,可見它對于語義理解的有效性及重要性。
文本語義向量表示是為了將文本表示為維度固定的向量,主要分為兩大類方法:第一類為基于統(tǒng)計(jì)方法的文本向量表示。如,TF-IDF為代表的詞袋子模型,潛在語義分析模型(LSA)[21],概率潛在語義分析(PLSA)[22]和隱狄利克雷分布(LDA)[23]等。這些方法依賴于特征項(xiàng)的選擇和詞的獨(dú)立性假設(shè),且沒有合理有效地利用詞的語義信息。第二類為基于詞向量的神經(jīng)網(wǎng)絡(luò)模型等方法。詞向量模型有效捕捉了詞義信息,在此基礎(chǔ)上通過神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)文本整體的語義表示。相比于統(tǒng)計(jì)模型,這種端到端的學(xué)習(xí)方式降低了對特征選擇的要求并且語義學(xué)習(xí)能力更強(qiáng),但模型的復(fù)雜度較高并且訓(xùn)練往往依賴GPU。目前也有很多學(xué)者將句子中所有的詞向量直接相加或求平均的方法對文本表示,在文本分類等自然語言處理任務(wù)中也有很好的準(zhǔn)確率,還大大減少了模型復(fù)雜度和訓(xùn)練時(shí)間[24],但這種方法沒有考慮到不同詞、句、段落甚至是文本結(jié)構(gòu)的特點(diǎn)及貢獻(xiàn)度。
綜上所述,基于詞表的主題標(biāo)引中,抽詞技術(shù)的研究較多且較為成熟,候選術(shù)語提取效果良好。但在概念遴選方面研究較少,遴選結(jié)果仍存在較多與文獻(xiàn)主題內(nèi)容語義不相關(guān)的標(biāo)引結(jié)果,不能對標(biāo)引概念與文獻(xiàn)內(nèi)容的語義相關(guān)性進(jìn)行評估。然而,在NLP領(lǐng)域詞與文本語義表示和理解上近年來取得了豐碩成果,為我們在語義層面的工作提供了寶貴經(jīng)驗(yàn)。基于上述主題標(biāo)引中存在的問題和NLP在語義相關(guān)技術(shù)的快速發(fā)展,本文提出了基于語義感知的自動(dòng)標(biāo)引概念遴選優(yōu)化方法,從語義層面去除不相關(guān)概念,提高概念標(biāo)引結(jié)果的文獻(xiàn)相關(guān)性。
本文基于前期研究成果“基于英文超級科技詞表(STKOS)的英文文獻(xiàn)主題概念標(biāo)引”[2],文獻(xiàn)[3]對該標(biāo)引方法進(jìn)行了詳細(xì)的描述,由該文獻(xiàn)的概念標(biāo)引統(tǒng)計(jì)結(jié)果可看出,在標(biāo)引出文獻(xiàn)相關(guān)主題概念詞的同時(shí)存在很多的誤標(biāo)引現(xiàn)象,即誤標(biāo)引了很多與文獻(xiàn)內(nèi)容不相關(guān)的概念。本文在該方法得到的概念結(jié)果集基礎(chǔ)上提出了基于語義感知概念遴選方法,以獲得更高質(zhì)量的標(biāo)引結(jié)果。
“語義感知”指通過語義表示和語義計(jì)算等相關(guān)技術(shù),對概念和文獻(xiàn)主題內(nèi)容進(jìn)行語義表示和語義計(jì)算,根據(jù)兩者的語義相關(guān)性計(jì)算結(jié)果對兩者進(jìn)行評估,從而判定概念與文獻(xiàn)主題內(nèi)容是否相關(guān),即是否為正確的標(biāo)引。
2.1概念遴選框架基于語義感知的概念遴選框架如圖1所示,主要包括詞向量模型訓(xùn)練和語義感知遴選兩個(gè)部分。

圖1 基于語義感知的概念遴選框架圖
a.詞向量模型訓(xùn)練。選擇一定量的英文科技文獻(xiàn)并抽取文獻(xiàn)的標(biāo)題、摘要、關(guān)鍵詞信息作為訓(xùn)練語料。首先對英文文本信息進(jìn)行預(yù)處理、分詞、詞形還原等標(biāo)準(zhǔn)化操作,然后采用準(zhǔn)備好的語料訓(xùn)練詞向量模型,并針對不同的模型、實(shí)驗(yàn)參數(shù)和評測數(shù)據(jù)對其語義表達(dá)性能進(jìn)行對比分析,選擇最佳的詞向量模型。
b.語義感知遴選?;谟?xùn)練好的詞向量空間,首先對概念進(jìn)行語義表示(詳見2.2節(jié))并構(gòu)建基于多層注意力加權(quán)的文獻(xiàn)語義表示模型對待標(biāo)引文獻(xiàn)進(jìn)行語義表示(詳見2.3節(jié))。然后,基于兩者的表示對其進(jìn)行語義評估,按語義相關(guān)度由大到小對概念結(jié)果排序。最后,基于語義相關(guān)強(qiáng)度閾值對概念結(jié)果進(jìn)行遴選,獲得與文獻(xiàn)內(nèi)容語義強(qiáng)相關(guān)的概念標(biāo)引結(jié)果集。
2.2概念語義表示知識組織系統(tǒng)中的概念是規(guī)范化的表達(dá),抽象程度和語義專指性較高。但在英文文獻(xiàn)中,不同學(xué)者對同一事件或一個(gè)意思的描述用詞千差萬別,而且使用的詞和短語并不一定是規(guī)范的概念詞。若直接通過詞向量空間得到概念的向量作為概念的語義表示,將不能很好的解決這種一義多詞現(xiàn)象。因此,需要對概念進(jìn)行語義擴(kuò)充。對概念進(jìn)行語義擴(kuò)充不僅能夠增強(qiáng)概念表達(dá)向量的適應(yīng)性,也更加明確概念的內(nèi)容,使得概念向量表示具備更好的語義性能。
科技知識組織體系 (Scientific & Technological Knowledge Organization Systems, STKOS)是“十二五”國家科技支撐計(jì)劃立項(xiàng)支持建設(shè)的超級科技詞表,覆蓋理、工、農(nóng)、醫(yī)四大領(lǐng)域。其中,規(guī)范概念庫包含了概念形成過程中所有來源詞表中涉及的詞型規(guī)范、意義規(guī)范以及具有相同涵義術(shù)語形成的同義詞集合。
本文利用STKOS中規(guī)范概念庫的優(yōu)勢,在概念擴(kuò)充時(shí)考慮概念的同義、近義詞的表達(dá)。將每個(gè)標(biāo)引概念與其同義、近義的詞看成一個(gè)整體,記為Concept={concept,term1,term2,…, termN}。其中,termi(i=1,2,…,N)為概念concept的同義、近義詞,N為concept的同義、近義詞個(gè)數(shù)。
在深度神經(jīng)網(wǎng)絡(luò)中,經(jīng)常對所有特征向量進(jìn)行池化(pooling)操作,能夠提高所提取特征的魯棒性。因此,本文在進(jìn)行概念語義表示時(shí),借鑒深度神經(jīng)網(wǎng)絡(luò)中的pooling操作來給定概念表示中每一維度的值,這樣每個(gè)維度的特征值就是對Concept中concept本身和所有termi(i=1,…,N)向量的池化操作后的值。由于概念詞本身與其同義、近義詞都在一定程度上反映了該概念的語義信息,為了使概念表示更加明確和詳細(xì),對語義有更好的描繪和揭示,此處使用平均池化方法得到最終合成的概念語義表示c,如式(1)所示。
(1)
其中,c′表示由詞向量空間得到的規(guī)范概念詞concept本身的語義向量,t′表示termi的詞向量。
這種概念表示方法在一定程度上解決了一義多詞的語義相似性表達(dá)問題,得到更高層次的、泛化的概念語義表達(dá)。
2.3基于多層次注意力加權(quán)的文獻(xiàn)語義表示模型詞向量技術(shù)可以從無標(biāo)注的文本中自動(dòng)學(xué)到語義和語法信息,為文本表示學(xué)習(xí)提供了基礎(chǔ),通過組合文本中的詞向量,可以得到更深層的文本語義表示,更好地處理相關(guān)的語義任務(wù)。相關(guān)研究[25]表明,考慮了單詞和句子重要性的文本表示具有更好的性能。
本文著眼于英文科技文獻(xiàn)文本的語義表示學(xué)習(xí),考慮到科技文獻(xiàn)標(biāo)引源的特殊層次結(jié)構(gòu)(標(biāo)題、摘要、關(guān)鍵詞),為了更好的對文獻(xiàn)的語義進(jìn)行表達(dá),本文提出了基于多層次注意力加權(quán)的文獻(xiàn)語義表示方法,如圖2所示。注意力加權(quán)是對文本中不同部分的重要性體現(xiàn)。在建立詞向量的基礎(chǔ)上,對單詞、句子和結(jié)構(gòu)共3個(gè)層次進(jìn)行注意力加權(quán),綜合考慮了單詞重要性、摘要中各句子重要性和文獻(xiàn)層次結(jié)構(gòu)的重要性。

圖2 基于多層次注意力加權(quán)的文獻(xiàn)語義表示模型
如圖2所示,對于每篇文獻(xiàn)可以表示成D={title, abstract, keywords},其中,title={t1,t2,…,tlt},lt是標(biāo)題的長度。abstract={s1,s2,…,sla},la是摘要中句子的個(gè)數(shù)。keywords={t1,t2,…,tlk},lk是關(guān)鍵詞的長度。首先對文獻(xiàn)進(jìn)行預(yù)處理、分詞、標(biāo)準(zhǔn)化(詞形還原),然后通過訓(xùn)練好的詞向量模型將每個(gè)詞ti表示成一個(gè)維度為n的向量,記為wi。
2.3.1 單詞注意力動(dòng)態(tài)加權(quán) 本文利用經(jīng)典的TF-IDF算法在衡量單詞重要程度上的優(yōu)勢,對單詞的詞向量進(jìn)行動(dòng)態(tài)加權(quán)表示。
對于單詞ti,利用TF-IDF算法計(jì)算其在目標(biāo)文獻(xiàn)中的重要性加權(quán)值為Wti。由于同一單詞在不同文獻(xiàn)中的TF-IDF權(quán)重是不同的,是因文檔內(nèi)容不同而動(dòng)態(tài)可變的,因此稱為單詞注意力的動(dòng)態(tài)加權(quán)。
將文獻(xiàn)D的title與keywords的單詞注意力加權(quán)表示分別記為p1和p3,如公式(2)(4)所示。abstract由多個(gè)句子組成,每個(gè)句子的單詞向量注意力加權(quán)表示記為si,如公式(3)所示。
(2)
(3)
(4)
其中,Wti表示單詞ti在文獻(xiàn)D中的TF-IDF權(quán)重。wi1為title中單詞ti的詞向量;wi2為abstract句子中單詞ti的詞向量;wi3為keywords中單詞ti的詞向量,ls是句子si的長度。
2.3.2 句子注意力加權(quán) 文獻(xiàn)摘要部分是對文獻(xiàn)內(nèi)容的簡短陳述,能夠獲得文獻(xiàn)的必要信息。通常英文文獻(xiàn)的摘要表達(dá)內(nèi)容較為固定,主要包括3部分內(nèi)容:a.研究的背景意義,說明了研究問題提出的緣由,揭示了研究的范圍和重要性(通常為首句,記為ABS)。b.研究方法過程,簡要闡述了研究的思路、設(shè)計(jì)和方法(通常為中間部分,記為ABM)。c.研究結(jié)論,表明了研究的成果、發(fā)現(xiàn)和價(jià)值等(通常為尾句,記為ABE)。每部分內(nèi)容的語義對文獻(xiàn)主題語義的貢獻(xiàn)程度不同,為此將摘要進(jìn)行句子切分,對摘要進(jìn)行句子的靜態(tài)注意力加權(quán)表達(dá)。
對于每篇文獻(xiàn)D,abstract向量句子注意力加權(quán)表示記為p2,如公式(5)所示。
其中,la為摘要中句子個(gè)數(shù),si為第i個(gè)句子基于單詞注意力加權(quán)后的向量表達(dá)。ABS、ABM和ABE結(jié)合專家意見及經(jīng)驗(yàn)值分別設(shè)定為2,1,2。
2.3.3 結(jié)構(gòu)注意力加權(quán) 文獻(xiàn)的標(biāo)引源具有特殊的層次結(jié)構(gòu),每個(gè)部分的特點(diǎn)不同。標(biāo)題從總體的角度,用簡明、精確的詞匯表達(dá)了文獻(xiàn)的主題內(nèi)容;摘要用簡潔的語言全面陳述了文獻(xiàn)研究的背景意義、方法過程和研究結(jié)論等主要信息,是整個(gè)文獻(xiàn)的濃縮;關(guān)鍵詞是文獻(xiàn)作者挑選的反映文獻(xiàn)核心思想或內(nèi)容的單元,能夠準(zhǔn)確反映文獻(xiàn)特征內(nèi)容,通用性較強(qiáng),在表征文獻(xiàn)核心思想和主題內(nèi)容上則顯得更重要。
標(biāo)題、摘要、關(guān)鍵詞三個(gè)部分的內(nèi)容側(cè)重不同,因此對各部分進(jìn)行注意力加權(quán)得到整個(gè)文獻(xiàn)的語義表示,分別記為W_t、W_a、W_k,結(jié)合專家意見和經(jīng)驗(yàn)得到最佳取值分別為2,1,3。經(jīng)過結(jié)構(gòu)注意力加權(quán)得到的文獻(xiàn)的語義向量表示記為d,如公式(6)所示。
(6)
2.4基于語義相關(guān)強(qiáng)度的概念遴選為進(jìn)一步降低不相關(guān)概念標(biāo)引,提高概念標(biāo)引結(jié)果與文獻(xiàn)內(nèi)容的相關(guān)性,采用基于語義相關(guān)強(qiáng)度的概念遴選,即根據(jù)初步標(biāo)引概念結(jié)果集中的概念與文獻(xiàn)內(nèi)容之間的語義相關(guān)強(qiáng)度來進(jìn)行概念遴選。
對于一篇文獻(xiàn)D,設(shè)初步標(biāo)引得到的概念結(jié)果集為(C1,C2,…,Cm),其中m為概念結(jié)果的個(gè)數(shù)。根據(jù)2.2和2.3節(jié)方法分別得到每個(gè)概念Ci的語義向量表示ci和文獻(xiàn)的語義向量表示d。概念Ci和文獻(xiàn)D的語義相似度記為rel(Ci,D),通過NLP任務(wù)中常用的余弦相似度算法進(jìn)行相似度計(jì)算,如公式(7)所示。
(7)
其中,n表示向量的維度,cik、dk分別表示ci和d在第k維度上的值。
本文將通過實(shí)驗(yàn)獲得最佳的語義相關(guān)度閾值,將超過語義相關(guān)度閾值的概念作為最終的遴選結(jié)果,增強(qiáng)全局語義把控能力和標(biāo)引精度。
3.1實(shí)驗(yàn)數(shù)據(jù)
3.1.1 詞向量訓(xùn)練數(shù)據(jù) 實(shí)驗(yàn)數(shù)據(jù)來源于NSTL,抽取規(guī)則和數(shù)據(jù)量如表1所示,根據(jù)館藏單位和中圖分類號抽取理工農(nóng)醫(yī)4個(gè)領(lǐng)域各20萬篇英文文獻(xiàn),共80萬篇英文文獻(xiàn)數(shù)據(jù)作為詞向量訓(xùn)練的語料。

表1 數(shù)據(jù)抽取規(guī)則
3.1.2 詞向量內(nèi)部評價(jià)數(shù)據(jù) 為評價(jià)各詞向量模型的語義表達(dá)能力,在詞向量的內(nèi)部評價(jià)中通過語義相似性/相關(guān)性實(shí)驗(yàn)進(jìn)行評價(jià)。采用英文詞向量評測的金標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行評測,主要包括以下8個(gè)數(shù)據(jù)集:EN-WS-353[26](該數(shù)據(jù)集也被分為兩部分EN-WS-353-REL和EN-WS-353-SIM)、SimLex-999[27]、MTurk-287[28]、MEN-TR-3k[29]、MTURK-771[30]、RG65[31]、MC-30[32]。
3.1.3 自動(dòng)標(biāo)引實(shí)驗(yàn)數(shù)據(jù) 在基于語義感知的概念遴選方法的驗(yàn)證上,從上述抽取的80萬篇英文文獻(xiàn)數(shù)據(jù)中,隨機(jī)抽取理工農(nóng)醫(yī)各1 000篇文獻(xiàn),共4 000篇文獻(xiàn)數(shù)據(jù),進(jìn)行自動(dòng)標(biāo)引實(shí)驗(yàn)分析。
3.2詞向量表示的實(shí)驗(yàn)分析
3.2.1 實(shí)驗(yàn)設(shè)置 為了選擇更適合科技領(lǐng)域語義表達(dá)的詞向量模型,本節(jié)在相同的語料下,針對不同的模型、實(shí)驗(yàn)參數(shù)和評測數(shù)據(jù)對其語義表達(dá)性能進(jìn)行對比分析,具體實(shí)驗(yàn)設(shè)置如表2所示。

表2 詞向量對比實(shí)驗(yàn)設(shè)置
3.2.2 評價(jià)指標(biāo) 該任務(wù)是為了評估詞向量模型在兩個(gè)詞之間的語義緊密度和相關(guān)性的能力,采用的評測方法如下:
首先采用余弦相似度計(jì)算各個(gè)評測數(shù)據(jù)集中所有詞對的相似度Y,然后計(jì)算Y和對應(yīng)評測數(shù)據(jù)中已標(biāo)注的相似度分?jǐn)?shù)X這兩組數(shù)據(jù)之間的斯皮爾曼相關(guān)系數(shù)(ρ)(Spearman's rank correlation coefficient) 作為評價(jià)指標(biāo),記為 rho。它利用單調(diào)方程評價(jià)變量X和Y之間的相關(guān)性,計(jì)算如公式(8)所示。當(dāng)ρ接近0則表示兩個(gè)變量無相關(guān)性,ρ接近1或-1則表示兩個(gè)變量強(qiáng)相關(guān)。
(8)

3.2.3 實(shí)驗(yàn)結(jié)果與分析 各詞向量模型在不同詞向量維度下各標(biāo)準(zhǔn)評測數(shù)據(jù)集的Rho均值對比結(jié)果如圖3所示。

圖3 各模型在不同向量維度下評測數(shù)據(jù)集Rho均值
由圖3可以看出,不同模型在同一向量維度的語義相關(guān)性效果差異較大,Word2vec模型在各個(gè)向量維度上的平均相關(guān)系數(shù)均最高,GloVe次之。由此說明在本文科技領(lǐng)域的英文文獻(xiàn)數(shù)據(jù)集上Word2vec評估詞間的語義緊密度和相關(guān)性上能力最優(yōu)。Word2vec在維度為200時(shí)的性能最佳,因此選擇訓(xùn)練好的200維的word2vec詞向量模型作為本文的詞向量表達(dá)工具。
3.3概念遴選實(shí)驗(yàn)分析
3.3.1 評價(jià)方法及指標(biāo)
本節(jié)重點(diǎn)對基于語義感知的概念遴選方法的有效性進(jìn)行實(shí)驗(yàn)論證。主要包括兩個(gè)部分:語義感知性能評價(jià);遴選結(jié)果評價(jià)。
a.語義感知性能評價(jià)。為說明語義計(jì)算效果和語義感知的性能,針對每篇文獻(xiàn)D,我們對語義感知前原標(biāo)引系統(tǒng)按權(quán)重由大到小排序的概念標(biāo)引結(jié)果C={ C1,C2,…,Cm}和語義感知后按語義相關(guān)度由大到小排序的概念標(biāo)引結(jié)果SC={ SC1,SC2,…,SCm}進(jìn)行對比。首先由人工標(biāo)注出原有標(biāo)引結(jié)果C中與文獻(xiàn)內(nèi)容不相關(guān)的概念集P,分別計(jì)算每個(gè)不相關(guān)標(biāo)引Pi∈P在C、SC中的排序位置LC,LSC,則定義語義感知性能評價(jià)指標(biāo)為Sp,其計(jì)算如公式(9)所示。
Sp=LSC-LC
(9)
Sp表示語義感知前后不相關(guān)標(biāo)引概念的排序變化,其大小反映了語義感知性能的高低。若Sp>0,則說明語義感知有效,即不相關(guān)概念標(biāo)引經(jīng)過語義感知后,降低了權(quán)重,排在了結(jié)果中更靠后的位置,值越大說明語義感知性能越高。反之Sp<0則說明語義感知無效。
b.遴選結(jié)果評價(jià)。遴選結(jié)果評價(jià)主要是對遴選前后的結(jié)果進(jìn)行評價(jià),看是否提升了標(biāo)引結(jié)果的文獻(xiàn)內(nèi)容相關(guān)性,統(tǒng)計(jì)指標(biāo)如下表3所示。

表3 遴選結(jié)果統(tǒng)計(jì)
遴選結(jié)果的評價(jià)指標(biāo)為準(zhǔn)確率P(Precision)、召回率R(Recall),F(xiàn)1值。其計(jì)算如公式(10)、(11)、(12)所示:

(10)

(11)
(12)
3.3.2 語義感知性能試驗(yàn)分析 根據(jù)3.1節(jié)描述的實(shí)驗(yàn)數(shù)據(jù),對4 000篇文獻(xiàn)數(shù)據(jù)開展主題概念標(biāo)引實(shí)驗(yàn)。
為說明語義計(jì)算效果和語義感知的性能,針對每篇文獻(xiàn)D,分別統(tǒng)計(jì)每個(gè)不相關(guān)標(biāo)引Pi∈P在語義感知前后排序結(jié)果C、SC中的排序位置LC,LSC并計(jì)算排序變化差值Sp,結(jié)果如圖4所示。

圖4 語義感知前后不相關(guān)標(biāo)引排序變化差值Sp
如圖4所示,橫坐標(biāo)為不相關(guān)標(biāo)引概念,縱坐標(biāo)為Sp??煽闯鼋^大多數(shù)的Sp值在0值以上且數(shù)值較大,說明經(jīng)過語義感知后,絕大多數(shù)的不相關(guān)概念標(biāo)引降低較大的權(quán)重,排在了結(jié)果中更靠后的位置。然而也有一小部分的Sp<0,即經(jīng)過語義感知,小部分不相關(guān)標(biāo)引反而權(quán)重增大排在了結(jié)果中更靠前的位置,通過分析發(fā)現(xiàn),學(xué)科/領(lǐng)域不同,感知的效果有一定的差異,后續(xù)需要結(jié)合不同學(xué)科的特點(diǎn)進(jìn)一步優(yōu)化。
3.3.3 遴選結(jié)果實(shí)驗(yàn)分析 通過語義感知后,需要根據(jù)標(biāo)引概念與文獻(xiàn)語義相關(guān)性強(qiáng)度對概念結(jié)果進(jìn)行遴選,選擇優(yōu)質(zhì)概念,濾除無關(guān)概念。為了選擇最佳的語義強(qiáng)度閾值,我們對3.1節(jié)所介紹實(shí)驗(yàn)數(shù)據(jù)在不同閾值R(0~0.3)下遴選結(jié)果的P、R、F1均值進(jìn)行了對比分析,如圖5所示。

圖5 不同閾值下語義感知遴選后概念標(biāo)引結(jié)果的P、R、F1均值對比
由圖5可看出,隨著閾值R的增大,準(zhǔn)確率P一直在上升,召回率R一直在下降。這說明,隨著遴選閾值的不斷增大,不相關(guān)標(biāo)引基本上能夠很好的去除,但過大的閾值會導(dǎo)致部分相關(guān)標(biāo)引結(jié)果被去除。因此,需要選擇最合適的閾值保證兩者之間的平衡。由圖5可看出當(dāng)R=0.1時(shí)F1值最高,效果最佳,因此閾值R設(shè)定為0.1。當(dāng)R=0.1時(shí),各篇文獻(xiàn)經(jīng)過語義感知遴選前后的概念標(biāo)引結(jié)果的平均準(zhǔn)確率如圖6所示。

圖6 R=0.1下語義感知遴選前后概念標(biāo)引平均準(zhǔn)確率
由圖6可看出,經(jīng)過語義感知的概念遴選結(jié)果明顯較之前的結(jié)果在準(zhǔn)確率上有較大的提升,增強(qiáng)了概念的文獻(xiàn)內(nèi)容相關(guān)性。
為了觀察不同學(xué)科/領(lǐng)域下該遴選方法的效果,在最佳閾值R=0.1下,分別對存在不相關(guān)標(biāo)引的文獻(xiàn)進(jìn)行語義感知遴選前后的結(jié)果統(tǒng)計(jì),結(jié)果如表4所示。

表4 遴選結(jié)果統(tǒng)計(jì)
由表4可看出,經(jīng)過基于語義感知的概念遴選后,共1768個(gè)不相關(guān)標(biāo)引減少了897個(gè),減少不相關(guān)標(biāo)引個(gè)數(shù)過半,再次充分說明了本文遴選方法能夠大大減少標(biāo)引結(jié)果中不相關(guān)的標(biāo)引。同時(shí)也可以看出,各學(xué)科的遴選效果有一定的差異,單從減少的不相關(guān)標(biāo)引個(gè)數(shù)來看,理科最高。從減少的比例來看,農(nóng)學(xué)最高。由此說明雖然本文方法具有各學(xué)科的普遍適用性,但不同學(xué)科之間的特點(diǎn)不同,對遴選結(jié)果有較大的影響,下一步的研究也將聚焦特定領(lǐng)域進(jìn)一步分析優(yōu)化。
本文針對現(xiàn)有基于知識組織的英文文獻(xiàn)主題標(biāo)引系統(tǒng)得到的標(biāo)引概念文獻(xiàn)相關(guān)性低的問題,為進(jìn)一步降低不相關(guān)概念的影響,提出了基于語義感知的自動(dòng)標(biāo)引概念遴選優(yōu)化方法。通過訓(xùn)練科技領(lǐng)域的詞向量空間,對標(biāo)引概念和文獻(xiàn)內(nèi)容進(jìn)行語義表示并進(jìn)行語義相關(guān)度評估,實(shí)現(xiàn)了概念在語義層面的遴選。通過相關(guān)實(shí)驗(yàn)驗(yàn)證了語義感知遴選方法的有效性,能夠大大減少概念結(jié)果中不相關(guān)的標(biāo)引,更好的反映了文獻(xiàn)主題內(nèi)容,而且方法具有各學(xué)科的普遍適用性,為進(jìn)一步深層次的知識關(guān)聯(lián)服務(wù)奠定了基礎(chǔ)。
本研究在基于知識組織標(biāo)引系統(tǒng)優(yōu)勢的基礎(chǔ)上結(jié)合語義理解技術(shù),從語義層面對遴選優(yōu)化進(jìn)行了探索性研究,能夠較好的去除部分不相關(guān)概念標(biāo)引,但仍存在一定的局限性,下一步將對方法和模型繼續(xù)完善優(yōu)化,主要工作包括:a.增大詞向量訓(xùn)練數(shù)據(jù)的規(guī)模進(jìn)一步提升語義表達(dá)能力;b.考慮引入深度學(xué)習(xí)模型優(yōu)化,進(jìn)一步深入語義分析;c.不同學(xué)科文獻(xiàn)具有各自的特性,聚焦特定領(lǐng)域,進(jìn)一步揭示不同學(xué)科領(lǐng)域的文獻(xiàn)最佳表示、最優(yōu)模型和最優(yōu)參數(shù)設(shè)置等以期進(jìn)一步提升主題標(biāo)引準(zhǔn)確率。