孟旭陽 白海燕 梁 冰 王 莉
(中國科學技術信息研究所 北京 100038)
Automatic Indexing Concept Selection Method of English Documents Based on Semantic Perception
Meng Xuyang Bai Haiyan Liang Bing Wang Li
(Institute of Scientific and Technical of Information of China,Beijing 100038)
Abstract:[Purpose/Significance]In the era of resource digitalization, the literature service is changing to knowledge service. High-quality subject indexing is the foundation and key to improve the ability of literature knowledge services. Aiming at the low accuracy of automatic indexing of English scientific and technological literature, a concept selection optimization method based on semantic perception is proposed.[Method/Process]Based on the automatic subject indexing of knowledge organization system, word embedding in natural language processing is used to represent the semantic vector of concept and literature content, and then perform semantic perception and evaluation to achieve the selection of concept indexing results at the semantic level. This method adopts a technical method based on the combination of knowledge organization system and natural language processing, which makes up for the lack of semantic level, further reduces the impact of unrelated concepts, and improves the accuracy of concept indexing results.[Result/Conclusion]The experimental results show that the method in this paper has good semantic perception performance, effectively reduces irrelevant concepts, greatly improves the relevance of indexing results and literature, and provides valuable reference and support for the construction of scientific and technological literature resource knowledge service and related research.
Keywords:automatic indexing; concept selection; semantic perception; word embedding
近年來,隨著信息資源的迅速增長以及科技文獻服務需求的日益知識化,對科技文獻主題自動標引的準確度提出了更高的要求。文獻主題的自動標引是對文獻數(shù)字資源進行組織的有效手段,標引的質量直接影響到數(shù)字資源的質量和利用[1],也是知識化服務重點需要解決的問題之一,具有重要的研究意義和較高的實用價值。
基于知識組織系統(tǒng)的自動主題概念標引可以建立不同術語表達形式的一致性規(guī)范概念,為不同術語之間提供語義關聯(lián),能夠提高概念的知識化關聯(lián),實現(xiàn)資源的組織化。然而,目前的文獻主題概念標引結果并不理想,以基于英文超級科技詞表(STKOS)[2]的英文文獻主題概念自動標引系統(tǒng)[3]為例,經(jīng)統(tǒng)計分析發(fā)現(xiàn),在英文科技文獻自動標引的概念遴選步驟中,一些與文獻主題內(nèi)容不相關的概念卻被保留在最終標引結果中,忽略了概念結果與文獻之間的語義相關性分析,是自動標引質量不佳的重要及主要原因。
為了進一步提高標引結果與文獻內(nèi)容的相關性,本文基于英文超級科技詞表(STKOS)的英文文獻主題標引,提出了基于語義感知的自動標引概念遴選優(yōu)化方法。首先,通過運用自然語言處理技術,訓練科技領域的詞向量的語言模型,建立了詞本身與文獻內(nèi)容之間的語義聯(lián)系。其次,構建了基于多層注意力加權的文獻語義表示模型對文獻進行表示。然后,對概念標引結果和文獻內(nèi)容的兩個語義表示進行感知評估,最后,基于語義相關性強度實現(xiàn)概念結果的遴選,從而獲得與文獻主題相關性高的優(yōu)選概念。在NSTL中隨機抽取的英文科技文獻數(shù)據(jù)上進行的實驗表明,本文方法在原標引結果的基礎上可以有效地去除與文獻內(nèi)容不相關的標引,提高概念標引的質量。
本文研究涉及到基于詞表的主題標引和詞與文本語義表示的相關研究,分別總結這兩個領域相關工作。
1.1基于詞表的主題標引基于詞表的概念標引的基本流程為候選術語提取、規(guī)范概念映射、概念遴選[3-4]。在候選術語提取方面,抽詞技術的研究較多且較為成熟,包括基于統(tǒng)計學習方法[5-7]、基于語言分析方法[8-10]、基于統(tǒng)計和語言分析的混合方法[11-12]、基于機器學習和人工智能的方法等[13-15],能夠較好的提取關鍵詞。規(guī)范概念映射,該過程主要依賴詞表進行。即首先將候選術語原型與詞表中的規(guī)范術語原型進行匹配,獲得規(guī)范術語,其次根據(jù)詞表中已建立的術語與概念的對應關系,實現(xiàn)術語到規(guī)范概念的映射,形成規(guī)范概念集。在概念遴選方面,現(xiàn)有方法根據(jù)術語來源位置、抽取頻次等統(tǒng)計特征和語言學規(guī)則計算得到的權重大小來確定概念與文獻的關聯(lián)強度,通過設置權重閾值、標引深度閾值等遴選最終標引的概念詞。此外,還利用禁用詞表、通用詞表等過濾領域相關性不高的概念詞,從而降低通用概念等噪音對標引結果的影響[16]。這些概念遴選方法在一定程度上提升了標引的效果,但經(jīng)統(tǒng)計分析,該步驟結果中仍有較多與文獻主題內(nèi)容語義不相關,甚至是強不相關的概念結果被保留了下來。如何從語義層面進一步去除這些與實際文獻內(nèi)容不相關的錯誤標引,對標引質量的進一步提升有著重要意義。
1.2詞與文本語義向量表示文獻的語義理解是提高自動標引質量的關鍵。在自然語言處理(Natural LanguageProcessing, NLP)領域,文本語義理解的首要任務就是詞與文本的表示。
詞是承載語義最基本的單元,傳統(tǒng)的獨熱表示(one-hot representation),無法反映單詞之間的語義關聯(lián),容易產(chǎn)生數(shù)據(jù)稀疏和維度災難問題。近年來,深度學習技術席卷了自然語言處理領域,基于神經(jīng)網(wǎng)絡訓練得到詞向量的表示方法備受關注,該方法通過無監(jiān)督的機器學習方法從大規(guī)模無標注語料中自動學習句法和語義信息,克服了傳統(tǒng)獨熱表示的缺點。目前流行的詞向量表示模型有Mikolov等[17-18]提出的Word2vec 模型,Pennington等[19]出的GloVe模型和Bojanowski等[20]提出的FastText模型。上述詞向量模型能夠利用語料中詞的上下文信息將一個詞轉變成一個低維稠密向量,越相似的詞在向量空間中距離越近,詞的語義相關性可以很好的通過向量計算進行量化。基于詞向量的神經(jīng)網(wǎng)絡模型也為多項自然語言處理任務帶來了性能的提升,甚至在多項任務中達到了目前最好的效果,可見它對于語義理解的有效性及重要性。
文本語義向量表示是為了將文本表示為維度固定的向量,主要分為兩大類方法:第一類為基于統(tǒng)計方法的文本向量表示。如,TF-IDF為代表的詞袋子模型,潛在語義分析模型(LSA)[21],概率潛在語義分析(PLSA)[22]和隱狄利克雷分布(LDA)[23]等。這些方法依賴于特征項的選擇和詞的獨立性假設,且沒有合理有效地利用詞的語義信息。第二類為基于詞向量的神經(jīng)網(wǎng)絡模型等方法。詞向量模型有效捕捉了詞義信息,在此基礎上通過神經(jīng)網(wǎng)絡模型學習文本整體的語義表示。相比于統(tǒng)計模型,這種端到端的學習方式降低了對特征選擇的要求并且語義學習能力更強,但模型的復雜度較高并且訓練往往依賴GPU。目前也有很多學者將句子中所有的詞向量直接相加或求平均的方法對文本表示,在文本分類等自然語言處理任務中也有很好的準確率,還大大減少了模型復雜度和訓練時間[24],但這種方法沒有考慮到不同詞、句、段落甚至是文本結構的特點及貢獻度。
綜上所述,基于詞表的主題標引中,抽詞技術的研究較多且較為成熟,候選術語提取效果良好。但在概念遴選方面研究較少,遴選結果仍存在較多與文獻主題內(nèi)容語義不相關的標引結果,不能對標引概念與文獻內(nèi)容的語義相關性進行評估。然而,在NLP領域詞與文本語義表示和理解上近年來取得了豐碩成果,為我們在語義層面的工作提供了寶貴經(jīng)驗?;谏鲜鲋黝}標引中存在的問題和NLP在語義相關技術的快速發(fā)展,本文提出了基于語義感知的自動標引概念遴選優(yōu)化方法,從語義層面去除不相關概念,提高概念標引結果的文獻相關性。
本文基于前期研究成果“基于英文超級科技詞表(STKOS)的英文文獻主題概念標引”[2],文獻[3]對該標引方法進行了詳細的描述,由該文獻的概念標引統(tǒng)計結果可看出,在標引出文獻相關主題概念詞的同時存在很多的誤標引現(xiàn)象,即誤標引了很多與文獻內(nèi)容不相關的概念。本文在該方法得到的概念結果集基礎上提出了基于語義感知概念遴選方法,以獲得更高質量的標引結果。
“語義感知”指通過語義表示和語義計算等相關技術,對概念和文獻主題內(nèi)容進行語義表示和語義計算,根據(jù)兩者的語義相關性計算結果對兩者進行評估,從而判定概念與文獻主題內(nèi)容是否相關,即是否為正確的標引。
2.1概念遴選框架基于語義感知的概念遴選框架如圖1所示,主要包括詞向量模型訓練和語義感知遴選兩個部分。
圖1 基于語義感知的概念遴選框架圖
a.詞向量模型訓練。選擇一定量的英文科技文獻并抽取文獻的標題、摘要、關鍵詞信息作為訓練語料。首先對英文文本信息進行預處理、分詞、詞形還原等標準化操作,然后采用準備好的語料訓練詞向量模型,并針對不同的模型、實驗參數(shù)和評測數(shù)據(jù)對其語義表達性能進行對比分析,選擇最佳的詞向量模型。
b.語義感知遴選。基于訓練好的詞向量空間,首先對概念進行語義表示(詳見2.2節(jié))并構建基于多層注意力加權的文獻語義表示模型對待標引文獻進行語義表示(詳見2.3節(jié))。然后,基于兩者的表示對其進行語義評估,按語義相關度由大到小對概念結果排序。最后,基于語義相關強度閾值對概念結果進行遴選,獲得與文獻內(nèi)容語義強相關的概念標引結果集。
2.2概念語義表示知識組織系統(tǒng)中的概念是規(guī)范化的表達,抽象程度和語義專指性較高。但在英文文獻中,不同學者對同一事件或一個意思的描述用詞千差萬別,而且使用的詞和短語并不一定是規(guī)范的概念詞。若直接通過詞向量空間得到概念的向量作為概念的語義表示,將不能很好的解決這種一義多詞現(xiàn)象。因此,需要對概念進行語義擴充。對概念進行語義擴充不僅能夠增強概念表達向量的適應性,也更加明確概念的內(nèi)容,使得概念向量表示具備更好的語義性能。
科技知識組織體系 (Scientific & Technological Knowledge Organization Systems, STKOS)是“十二五”國家科技支撐計劃立項支持建設的超級科技詞表,覆蓋理、工、農(nóng)、醫(yī)四大領域。其中,規(guī)范概念庫包含了概念形成過程中所有來源詞表中涉及的詞型規(guī)范、意義規(guī)范以及具有相同涵義術語形成的同義詞集合。
本文利用STKOS中規(guī)范概念庫的優(yōu)勢,在概念擴充時考慮概念的同義、近義詞的表達。將每個標引概念與其同義、近義的詞看成一個整體,記為Concept={concept,term1,term2,…, termN}。其中,termi(i=1,2,…,N)為概念concept的同義、近義詞,N為concept的同義、近義詞個數(shù)。
在深度神經(jīng)網(wǎng)絡中,經(jīng)常對所有特征向量進行池化(pooling)操作,能夠提高所提取特征的魯棒性。因此,本文在進行概念語義表示時,借鑒深度神經(jīng)網(wǎng)絡中的pooling操作來給定概念表示中每一維度的值,這樣每個維度的特征值就是對Concept中concept本身和所有termi(i=1,…,N)向量的池化操作后的值。由于概念詞本身與其同義、近義詞都在一定程度上反映了該概念的語義信息,為了使概念表示更加明確和詳細,對語義有更好的描繪和揭示,此處使用平均池化方法得到最終合成的概念語義表示c,如式(1)所示。
(1)
其中,c′表示由詞向量空間得到的規(guī)范概念詞concept本身的語義向量,t′表示termi的詞向量。
這種概念表示方法在一定程度上解決了一義多詞的語義相似性表達問題,得到更高層次的、泛化的概念語義表達。
2.3基于多層次注意力加權的文獻語義表示模型詞向量技術可以從無標注的文本中自動學到語義和語法信息,為文本表示學習提供了基礎,通過組合文本中的詞向量,可以得到更深層的文本語義表示,更好地處理相關的語義任務。相關研究[25]表明,考慮了單詞和句子重要性的文本表示具有更好的性能。
本文著眼于英文科技文獻文本的語義表示學習,考慮到科技文獻標引源的特殊層次結構(標題、摘要、關鍵詞),為了更好的對文獻的語義進行表達,本文提出了基于多層次注意力加權的文獻語義表示方法,如圖2所示。注意力加權是對文本中不同部分的重要性體現(xiàn)。在建立詞向量的基礎上,對單詞、句子和結構共3個層次進行注意力加權,綜合考慮了單詞重要性、摘要中各句子重要性和文獻層次結構的重要性。
圖2 基于多層次注意力加權的文獻語義表示模型
如圖2所示,對于每篇文獻可以表示成D={title, abstract, keywords},其中,title={t1,t2,…,tlt},lt是標題的長度。abstract={s1,s2,…,sla},la是摘要中句子的個數(shù)。keywords={t1,t2,…,tlk},lk是關鍵詞的長度。首先對文獻進行預處理、分詞、標準化(詞形還原),然后通過訓練好的詞向量模型將每個詞ti表示成一個維度為n的向量,記為wi。
2.3.1 單詞注意力動態(tài)加權 本文利用經(jīng)典的TF-IDF算法在衡量單詞重要程度上的優(yōu)勢,對單詞的詞向量進行動態(tài)加權表示。
對于單詞ti,利用TF-IDF算法計算其在目標文獻中的重要性加權值為Wti。由于同一單詞在不同文獻中的TF-IDF權重是不同的,是因文檔內(nèi)容不同而動態(tài)可變的,因此稱為單詞注意力的動態(tài)加權。
將文獻D的title與keywords的單詞注意力加權表示分別記為p1和p3,如公式(2)(4)所示。abstract由多個句子組成,每個句子的單詞向量注意力加權表示記為si,如公式(3)所示。
(2)
(3)
(4)
其中,Wti表示單詞ti在文獻D中的TF-IDF權重。wi1為title中單詞ti的詞向量;wi2為abstract句子中單詞ti的詞向量;wi3為keywords中單詞ti的詞向量,ls是句子si的長度。
2.3.2 句子注意力加權 文獻摘要部分是對文獻內(nèi)容的簡短陳述,能夠獲得文獻的必要信息。通常英文文獻的摘要表達內(nèi)容較為固定,主要包括3部分內(nèi)容:a.研究的背景意義,說明了研究問題提出的緣由,揭示了研究的范圍和重要性(通常為首句,記為ABS)。b.研究方法過程,簡要闡述了研究的思路、設計和方法(通常為中間部分,記為ABM)。c.研究結論,表明了研究的成果、發(fā)現(xiàn)和價值等(通常為尾句,記為ABE)。每部分內(nèi)容的語義對文獻主題語義的貢獻程度不同,為此將摘要進行句子切分,對摘要進行句子的靜態(tài)注意力加權表達。
對于每篇文獻D,abstract向量句子注意力加權表示記為p2,如公式(5)所示。
其中,la為摘要中句子個數(shù),si為第i個句子基于單詞注意力加權后的向量表達。ABS、ABM和ABE結合專家意見及經(jīng)驗值分別設定為2,1,2。
2.3.3 結構注意力加權 文獻的標引源具有特殊的層次結構,每個部分的特點不同。標題從總體的角度,用簡明、精確的詞匯表達了文獻的主題內(nèi)容;摘要用簡潔的語言全面陳述了文獻研究的背景意義、方法過程和研究結論等主要信息,是整個文獻的濃縮;關鍵詞是文獻作者挑選的反映文獻核心思想或內(nèi)容的單元,能夠準確反映文獻特征內(nèi)容,通用性較強,在表征文獻核心思想和主題內(nèi)容上則顯得更重要。
標題、摘要、關鍵詞三個部分的內(nèi)容側重不同,因此對各部分進行注意力加權得到整個文獻的語義表示,分別記為W_t、W_a、W_k,結合專家意見和經(jīng)驗得到最佳取值分別為2,1,3。經(jīng)過結構注意力加權得到的文獻的語義向量表示記為d,如公式(6)所示。
(6)
2.4基于語義相關強度的概念遴選為進一步降低不相關概念標引,提高概念標引結果與文獻內(nèi)容的相關性,采用基于語義相關強度的概念遴選,即根據(jù)初步標引概念結果集中的概念與文獻內(nèi)容之間的語義相關強度來進行概念遴選。
對于一篇文獻D,設初步標引得到的概念結果集為(C1,C2,…,Cm),其中m為概念結果的個數(shù)。根據(jù)2.2和2.3節(jié)方法分別得到每個概念Ci的語義向量表示ci和文獻的語義向量表示d。概念Ci和文獻D的語義相似度記為rel(Ci,D),通過NLP任務中常用的余弦相似度算法進行相似度計算,如公式(7)所示。
(7)
其中,n表示向量的維度,cik、dk分別表示ci和d在第k維度上的值。
本文將通過實驗獲得最佳的語義相關度閾值,將超過語義相關度閾值的概念作為最終的遴選結果,增強全局語義把控能力和標引精度。
3.1實驗數(shù)據(jù)
3.1.1 詞向量訓練數(shù)據(jù) 實驗數(shù)據(jù)來源于NSTL,抽取規(guī)則和數(shù)據(jù)量如表1所示,根據(jù)館藏單位和中圖分類號抽取理工農(nóng)醫(yī)4個領域各20萬篇英文文獻,共80萬篇英文文獻數(shù)據(jù)作為詞向量訓練的語料。
表1 數(shù)據(jù)抽取規(guī)則
3.1.2 詞向量內(nèi)部評價數(shù)據(jù) 為評價各詞向量模型的語義表達能力,在詞向量的內(nèi)部評價中通過語義相似性/相關性實驗進行評價。采用英文詞向量評測的金標準數(shù)據(jù)集進行評測,主要包括以下8個數(shù)據(jù)集:EN-WS-353[26](該數(shù)據(jù)集也被分為兩部分EN-WS-353-REL和EN-WS-353-SIM)、SimLex-999[27]、MTurk-287[28]、MEN-TR-3k[29]、MTURK-771[30]、RG65[31]、MC-30[32]。
3.1.3 自動標引實驗數(shù)據(jù) 在基于語義感知的概念遴選方法的驗證上,從上述抽取的80萬篇英文文獻數(shù)據(jù)中,隨機抽取理工農(nóng)醫(yī)各1 000篇文獻,共4 000篇文獻數(shù)據(jù),進行自動標引實驗分析。
3.2詞向量表示的實驗分析
3.2.1 實驗設置 為了選擇更適合科技領域語義表達的詞向量模型,本節(jié)在相同的語料下,針對不同的模型、實驗參數(shù)和評測數(shù)據(jù)對其語義表達性能進行對比分析,具體實驗設置如表2所示。
表2 詞向量對比實驗設置
3.2.2 評價指標 該任務是為了評估詞向量模型在兩個詞之間的語義緊密度和相關性的能力,采用的評測方法如下:
首先采用余弦相似度計算各個評測數(shù)據(jù)集中所有詞對的相似度Y,然后計算Y和對應評測數(shù)據(jù)中已標注的相似度分數(shù)X這兩組數(shù)據(jù)之間的斯皮爾曼相關系數(shù)(ρ)(Spearman's rank correlation coefficient) 作為評價指標,記為 rho。它利用單調方程評價變量X和Y之間的相關性,計算如公式(8)所示。當ρ接近0則表示兩個變量無相關性,ρ接近1或-1則表示兩個變量強相關。
(8)
3.2.3 實驗結果與分析 各詞向量模型在不同詞向量維度下各標準評測數(shù)據(jù)集的Rho均值對比結果如圖3所示。
圖3 各模型在不同向量維度下評測數(shù)據(jù)集Rho均值
由圖3可以看出,不同模型在同一向量維度的語義相關性效果差異較大,Word2vec模型在各個向量維度上的平均相關系數(shù)均最高,GloVe次之。由此說明在本文科技領域的英文文獻數(shù)據(jù)集上Word2vec評估詞間的語義緊密度和相關性上能力最優(yōu)。Word2vec在維度為200時的性能最佳,因此選擇訓練好的200維的word2vec詞向量模型作為本文的詞向量表達工具。
3.3概念遴選實驗分析
3.3.1 評價方法及指標
本節(jié)重點對基于語義感知的概念遴選方法的有效性進行實驗論證。主要包括兩個部分:語義感知性能評價;遴選結果評價。
a.語義感知性能評價。為說明語義計算效果和語義感知的性能,針對每篇文獻D,我們對語義感知前原標引系統(tǒng)按權重由大到小排序的概念標引結果C={ C1,C2,…,Cm}和語義感知后按語義相關度由大到小排序的概念標引結果SC={ SC1,SC2,…,SCm}進行對比。首先由人工標注出原有標引結果C中與文獻內(nèi)容不相關的概念集P,分別計算每個不相關標引Pi∈P在C、SC中的排序位置LC,LSC,則定義語義感知性能評價指標為Sp,其計算如公式(9)所示。
Sp=LSC-LC
(9)
Sp表示語義感知前后不相關標引概念的排序變化,其大小反映了語義感知性能的高低。若Sp>0,則說明語義感知有效,即不相關概念標引經(jīng)過語義感知后,降低了權重,排在了結果中更靠后的位置,值越大說明語義感知性能越高。反之Sp<0則說明語義感知無效。
b.遴選結果評價。遴選結果評價主要是對遴選前后的結果進行評價,看是否提升了標引結果的文獻內(nèi)容相關性,統(tǒng)計指標如下表3所示。
表3 遴選結果統(tǒng)計
遴選結果的評價指標為準確率P(Precision)、召回率R(Recall),F(xiàn)1值。其計算如公式(10)、(11)、(12)所示:
(10)
(11)
(12)
3.3.2 語義感知性能試驗分析 根據(jù)3.1節(jié)描述的實驗數(shù)據(jù),對4 000篇文獻數(shù)據(jù)開展主題概念標引實驗。
為說明語義計算效果和語義感知的性能,針對每篇文獻D,分別統(tǒng)計每個不相關標引Pi∈P在語義感知前后排序結果C、SC中的排序位置LC,LSC并計算排序變化差值Sp,結果如圖4所示。
圖4 語義感知前后不相關標引排序變化差值Sp
如圖4所示,橫坐標為不相關標引概念,縱坐標為Sp。可看出絕大多數(shù)的Sp值在0值以上且數(shù)值較大,說明經(jīng)過語義感知后,絕大多數(shù)的不相關概念標引降低較大的權重,排在了結果中更靠后的位置。然而也有一小部分的Sp<0,即經(jīng)過語義感知,小部分不相關標引反而權重增大排在了結果中更靠前的位置,通過分析發(fā)現(xiàn),學科/領域不同,感知的效果有一定的差異,后續(xù)需要結合不同學科的特點進一步優(yōu)化。
3.3.3 遴選結果實驗分析 通過語義感知后,需要根據(jù)標引概念與文獻語義相關性強度對概念結果進行遴選,選擇優(yōu)質概念,濾除無關概念。為了選擇最佳的語義強度閾值,我們對3.1節(jié)所介紹實驗數(shù)據(jù)在不同閾值R(0~0.3)下遴選結果的P、R、F1均值進行了對比分析,如圖5所示。
圖5 不同閾值下語義感知遴選后概念標引結果的P、R、F1均值對比
由圖5可看出,隨著閾值R的增大,準確率P一直在上升,召回率R一直在下降。這說明,隨著遴選閾值的不斷增大,不相關標引基本上能夠很好的去除,但過大的閾值會導致部分相關標引結果被去除。因此,需要選擇最合適的閾值保證兩者之間的平衡。由圖5可看出當R=0.1時F1值最高,效果最佳,因此閾值R設定為0.1。當R=0.1時,各篇文獻經(jīng)過語義感知遴選前后的概念標引結果的平均準確率如圖6所示。
圖6 R=0.1下語義感知遴選前后概念標引平均準確率
由圖6可看出,經(jīng)過語義感知的概念遴選結果明顯較之前的結果在準確率上有較大的提升,增強了概念的文獻內(nèi)容相關性。
為了觀察不同學科/領域下該遴選方法的效果,在最佳閾值R=0.1下,分別對存在不相關標引的文獻進行語義感知遴選前后的結果統(tǒng)計,結果如表4所示。
表4 遴選結果統(tǒng)計
由表4可看出,經(jīng)過基于語義感知的概念遴選后,共1768個不相關標引減少了897個,減少不相關標引個數(shù)過半,再次充分說明了本文遴選方法能夠大大減少標引結果中不相關的標引。同時也可以看出,各學科的遴選效果有一定的差異,單從減少的不相關標引個數(shù)來看,理科最高。從減少的比例來看,農(nóng)學最高。由此說明雖然本文方法具有各學科的普遍適用性,但不同學科之間的特點不同,對遴選結果有較大的影響,下一步的研究也將聚焦特定領域進一步分析優(yōu)化。
本文針對現(xiàn)有基于知識組織的英文文獻主題標引系統(tǒng)得到的標引概念文獻相關性低的問題,為進一步降低不相關概念的影響,提出了基于語義感知的自動標引概念遴選優(yōu)化方法。通過訓練科技領域的詞向量空間,對標引概念和文獻內(nèi)容進行語義表示并進行語義相關度評估,實現(xiàn)了概念在語義層面的遴選。通過相關實驗驗證了語義感知遴選方法的有效性,能夠大大減少概念結果中不相關的標引,更好的反映了文獻主題內(nèi)容,而且方法具有各學科的普遍適用性,為進一步深層次的知識關聯(lián)服務奠定了基礎。
本研究在基于知識組織標引系統(tǒng)優(yōu)勢的基礎上結合語義理解技術,從語義層面對遴選優(yōu)化進行了探索性研究,能夠較好的去除部分不相關概念標引,但仍存在一定的局限性,下一步將對方法和模型繼續(xù)完善優(yōu)化,主要工作包括:a.增大詞向量訓練數(shù)據(jù)的規(guī)模進一步提升語義表達能力;b.考慮引入深度學習模型優(yōu)化,進一步深入語義分析;c.不同學科文獻具有各自的特性,聚焦特定領域,進一步揭示不同學科領域的文獻最佳表示、最優(yōu)模型和最優(yōu)參數(shù)設置等以期進一步提升主題標引準確率。