于潤羽,杜軍平,薛哲,徐欣,奚軍慶
(1.北京郵電大學(xué) 智能通信軟件與多媒體北京市重點實驗室, 北京 100876; 2.司法部信息中心, 北京 100020)
科技大數(shù)據(jù)[1-2]可以定義為與科研相關(guān)的活動產(chǎn)生的海量數(shù)據(jù),其以論文數(shù)據(jù)為主體,具有數(shù)據(jù)規(guī)模大、內(nèi)容專業(yè)化、特征屬性繁多的特點。科技學(xué)術(shù)會議數(shù)據(jù)包含某個領(lǐng)域內(nèi)的論文集合。以學(xué)術(shù)會議為單位進行畫像的構(gòu)建,可以幫助科研人員快速獲得有價值的科研信息,而構(gòu)建畫像的核心工作即為命名實體識別。
命名實體識別是自然語言處理中知識抽取領(lǐng)域中的重要研究方向,其目的是將給定文本中的實體按照預(yù)定義好的類別進行分類[3-4]。學(xué)術(shù)會議論文數(shù)據(jù)的命名實體識別與通用領(lǐng)域的識別有一定區(qū)別,主要原因在于通用領(lǐng)域的數(shù)據(jù)集的文本有較為嚴(yán)格的組成規(guī)范。但由于科研領(lǐng)域技術(shù)更新迭代快,導(dǎo)致論文數(shù)據(jù)集中有大量的專業(yè)術(shù)語[5]。同時實體之間的關(guān)系也相對復(fù)雜,增加了實體識別的難度。
中文命名實體識別的準(zhǔn)確率和中文分詞結(jié)果直接相關(guān),如果在分詞階段發(fā)生錯誤,會嚴(yán)重影響識別效果[6]。目前在中文命名實體識別過程中,大部分方法是基于字符模型編碼,這種方式在通用領(lǐng)域的命名識別中取得了較好的效果,但它無法挖掘到一串字符信息中的詞級別的信息。為了解決這個問題,可以把字符級模型和詞級別的模型相結(jié)合,降低歧義發(fā)生的概率[7]。然而在學(xué)術(shù)論文數(shù)據(jù)中,由于專業(yè)詞匯較多,采用這種方式很有可能產(chǎn)生錯誤的詞語邊界。因此本文引入論文關(guān)鍵詞特征,提出關(guān)鍵詞?字符編碼方式,在編碼階段同時考慮到關(guān)鍵詞級別和字符級別的語義信息。此外,在長短期記憶網(wǎng)絡(luò) (long-short term memory, LSTM)和條件隨機場(conditional random field, CRF)為主體框架的基礎(chǔ)上,在LSTM層引入自注意力機制(self-attention mechanism, SA),彌補長短期記憶網(wǎng)絡(luò)無法考慮到全局信息的缺陷,最后將LSTM和注意力機制輸出的結(jié)果進行融合再通過CRF進行標(biāo)注,兼顧了字符之間的依賴關(guān)系,在論文數(shù)據(jù)集中取得了更好的識別效果。
本文的主要貢獻:
1)提出了一種結(jié)合基于關(guān)鍵詞?字符LSTM和注意力機制(keyword-character long-short term memory and attention mechanism, KCLA)的命名實體識別方法,利用論文數(shù)據(jù)集進行訓(xùn)練并進行命名實體的識別;
2) 使用預(yù)訓(xùn)練模型對關(guān)鍵詞特征進行訓(xùn)練,獲得對應(yīng)的詞向量,在神經(jīng)網(wǎng)絡(luò)中將其與字符級別特征進行融合,獲取文本中潛在的語義信息;
3) 為科技學(xué)術(shù)會議論文數(shù)據(jù)中的實體進行定義,在網(wǎng)絡(luò)層同時使用長短期記憶網(wǎng)絡(luò)和注意力機制,充分考慮文本中的上下文信息以及全局信息,優(yōu)化實體識別的效果。
近年來命名實體識別的研究方法快速發(fā)展,包括基于統(tǒng)計機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。機器學(xué)習(xí)方法一般是通過標(biāo)注好的文本進行訓(xùn)練,利用訓(xùn)練好的模型進行識別[8]。常用模型有隱馬爾可夫模型[9]、最大熵模型、決策樹、支持向量機等。
基于深度學(xué)習(xí)的方法近年來發(fā)展迅速,可以通過不同的神經(jīng)網(wǎng)絡(luò)完成該任務(wù),首先是卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network, CNN),Yao 等[10]提出提出了一種基于CNN的適合醫(yī)學(xué)文本內(nèi)容的訓(xùn)練的命名實體識別方法,無需構(gòu)建詞典同時保證較高的準(zhǔn)確率。Strubell等[11]提出了迭代擴張卷積神經(jīng)網(wǎng)絡(luò)(iterated dilated convolutional neural networks, IDCNN)命名實體識別的方法,與下文提到的目前最具有表現(xiàn)力的LSTM模型相比,該模型只需要O(N)的時間復(fù)雜度,在保持與LSTM相當(dāng)?shù)木鹊臈l件下,可以實現(xiàn)8倍的速度提升。Yang等[12]分別采用字符級CNN和詞級別CNN的的方式進行命名實體識別,在字符級CNN中使用單層CNN,詞級別采用多層CNN,最后利用Softmax或者CRF的方式實現(xiàn)實體的標(biāo)注。Kong等[13]提出了一種完全基于CNN的模型,充分利用GPU并行性來提高模型效率,模型中構(gòu)造多級CNN來捕獲短期和長期上下文信息,在保證較高識別準(zhǔn)確率的情況下大幅提高了效率。
循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)也可以用于命名實體識別,RNN的變體LSTM在命名實體識別方面取得了顯著的成就。Huang等[14]融合雙向長短期記憶網(wǎng)絡(luò)和條件隨機場(BiLSTM-CRF)應(yīng)用于自然語言處理基準(zhǔn)序列標(biāo)記數(shù)據(jù)集。Zhang等[15]提出了針對中文NER的Lattice LSTM模型。與基于字符的方法相比,顯式地利用了詞序列信息,達到了最佳結(jié)果。Han等[16]針對專業(yè)領(lǐng)域內(nèi)命名實體識別通常面臨領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù)缺乏的問題,將生成對抗網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)模型相結(jié)合,在各項指標(biāo)上顯著優(yōu)于其他模型。
近年來,基于深度學(xué)習(xí)的命名實體識別研究除了基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方法外,還出現(xiàn)了一些更新的技術(shù)。首先,Transformer模型[17-18]不再使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)思想,使用到的只有注意力機制[19]。BERT模型于2018年被提出,在自然語言處理的各個領(lǐng)域都取得了令人矚目的效果[20],在命名實體識別領(lǐng)域,Dai等[21]在中文電子病歷表識別的應(yīng)用上使用了BERT+BiLISM+CRF的網(wǎng)絡(luò)結(jié)構(gòu),取得了很好的效果,Li等[22]使用了多層變種網(wǎng)絡(luò)結(jié)構(gòu)進行中文臨床命名實體識別,同樣取得了很好的識別效果。文獻[23]中利用預(yù)訓(xùn)練的BERT模型結(jié)合BiLSTM,提高了在Weibo中文數(shù)據(jù)集上命名實體識別的準(zhǔn)確率。Li等[24]針對現(xiàn)有的Lattice LSTM結(jié)構(gòu)復(fù)雜的問題,提出了FLAT,在性能和效率上均有提升。Yoon等[25]提出一個新型的命名實體識別(named entity recognition, NER)模型,由多個雙向LSTM網(wǎng)絡(luò)構(gòu)成,每個網(wǎng)絡(luò)作為一個單獨的任務(wù)識別某一種制定的實體類型,多個任務(wù)將各自學(xué)習(xí)到的知識進行轉(zhuǎn)移,獲得更準(zhǔn)確的預(yù)測。
在本節(jié)中,主要介紹結(jié)合關(guān)鍵詞-字符LSTM和注意力機制的科技學(xué)術(shù)會議論文命名實體識別算法。
本文提出一種結(jié)合關(guān)鍵詞?字符LSTM和注意力機制的科技學(xué)術(shù)會議論文命名實體識別算法。如圖1所示,模型的分為向量表示層(Embedding)、融合雙向長短期記憶網(wǎng)絡(luò)和自注意力機制層(BiLSTM-SA),以及條件隨機場層(CRF)。具體而言,向量表示層抽取了字符級別的特征以及關(guān)鍵詞特征,挖掘了數(shù)據(jù)中潛在的語義信息,生成向量作為后續(xù)網(wǎng)絡(luò)的輸入。BiLSTM-SA層通過神經(jīng)網(wǎng)絡(luò)提取局部和全局的文本的特征,最后通過CRF層獲得最大概率的命名實體分類。
圖1 KCLA算法整體框架Fig.1 Framework of KCLA algorithm
向量表示層主要將科技學(xué)術(shù)會議論文中的自然語言文本映射成后續(xù)層次能夠識別計算的形式。向量表示層可以基于不同的模型實現(xiàn),下面分別介紹字符級別編碼模型,詞級別編碼模型以及本文提出的關(guān)鍵詞?字符編碼模型。
2.2.1 基于字符級別編碼
基于字符級別編碼模型是將按照每一個中文字符進行編碼,給定一個論文標(biāo)題文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類,可以將其表示為s=[c1c2cn],其中ci表示句子中的第i個字符,每個字符經(jīng)過式(1)的變換,獲得對應(yīng)的輸入向量。
式中Ec代表字符級別的向量表示。最終的輸入向量可以表示為輸入到LSTM網(wǎng)絡(luò)中。
2.2.2 基于詞級別編碼
基于詞級別編碼模型是將按照詞中文詞匯進行編碼,同樣給定文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類,按照常規(guī)的中文分詞方式對其進行切分,然后按照詞級別進行編碼,可以將其表示為s=[w1w2wn],通過式(2)的變換,獲得對應(yīng)的輸入向量。
式中Ew代表詞級別的向量表示。最終的輸入向量可以表示為輸入到LSTM網(wǎng)絡(luò)中。
2.2.3 關(guān)鍵詞?字符編碼模型
關(guān)鍵詞?字符編碼模型主要考慮到了科技學(xué)術(shù)會議中論文數(shù)據(jù)本身的特點。由于論文數(shù)據(jù)專業(yè)性強,因此常規(guī)的分詞方式并不適用于論文數(shù)據(jù)集,如果采用基本的字詞融合,可能會產(chǎn)生很多錯誤的邊界,影響識別準(zhǔn)確率。考慮到論文數(shù)據(jù)集中有關(guān)鍵詞這一特征,例如對于文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類模型,在關(guān)鍵詞字段中包含了神經(jīng)網(wǎng)絡(luò)、文本分類等詞匯,如果不考慮關(guān)鍵詞信息,該句會被切分為
對于本文想要識別的實體,顯然產(chǎn)生了錯誤的詞匯邊界,因此要引入關(guān)鍵詞特征,構(gòu)建詞典,對于例子中的文本序列,需要將其正確切分為
獲得了正確的詞匯邊界后,在上述的文本序列中,字符層面依然通過=Ec(ci)對輸入的字符進行變換,獲得對應(yīng)的向量。除此之外要考慮關(guān)鍵詞層面的信息,這里運用來表示一個關(guān)鍵詞信息,例如:表示關(guān)鍵詞“神經(jīng)網(wǎng)絡(luò)”,表示關(guān)鍵詞“文本分類”,通過式=Ew(wb,e)進行變換。在實現(xiàn)的過程中,首先利用Word2Vec對文本中的關(guān)鍵詞進行預(yù)訓(xùn)練,獲得關(guān)鍵詞的詞向量模型,在模型中提取出詞向量矩陣,然后和字符級別的向量共同輸入到LSTM網(wǎng)絡(luò)層中,在LSTM中對二者進行融合,整體結(jié)構(gòu)如圖2所示。
圖2 Keyword-Character編碼結(jié)構(gòu)Fig.2 Structure of Keyword-Character
LSTM是一種特殊的RNN,與傳統(tǒng)的RNN相比,LSTM同樣是基于xt和ht?1來 計算ht,但加入了輸入門it、 遺忘門ft以 及輸出門ot3個門和1個內(nèi)部記憶單元ct。
第t層的更新計算公式為
LSTM模型按照文本序列的輸入處理上文的信息,而下文的信息對于科技學(xué)術(shù)會議論文數(shù)據(jù)的處理也有重要意義,因此本模型采用BiLSTM,它由兩層LSTM組成,向量表示層得到的向量按照正序作為正向LSTM的輸入,即可以得到輸出序列:
再通過反向輸入的方式,得到逆向LSTM輸出序列:
將兩層的輸出進行融合,得到包含上下文的特征hn=[hLhR]。
在本文提出的關(guān)鍵詞?字符編碼模型中,LSTM的輸入需要包含字符級關(guān)鍵詞級信息。在2.2.3節(jié)中,我們獲得了字符級向量以及關(guān)鍵詞級向量對于關(guān)鍵詞級向量同樣通過式(3)進行變換獲得LSTM的單元但不需要輸出門,因為最終的預(yù)測是以字符為單位,因此在詞級別不需要進行輸出。
BiLSTM在可以考慮到上下文的信息,但對于全局信息無法充分的表達,因此本模型將自注意力機制作為BiLSTM模塊的補充,提高命名實體識別的準(zhǔn)確率。
Attention的計算如式(5)所示。Q、K、V三個矩陣均來自同一輸入,首先計算Q與K之間的點乘,然后除以一個尺度標(biāo)度dk,然后將其結(jié)果歸一化,再乘以矩陣V就得到權(quán)重求和的表示。由于Attention本身就考慮到了全局的輸入,因此直接利用字符級別編碼進行輸入。
獲得了BiLSTM和Attention的輸出之后,LSTM的輸出為h=[h1h2hn]。
Attention層的輸入為字符編碼的向量,輸出通過式(5)的計算后,輸出為a=[a1a2an],然后對這兩個輸出進行融合操作,假設(shè)BiLSTM-SA層的輸出為yn,在進行融合操作時采用歸一化求和的形式,即
在預(yù)測當(dāng)前標(biāo)簽時,CRF通??梢援a(chǎn)生更高的標(biāo)記精度。由于論文數(shù)據(jù)相鄰字符之間有較強的依賴關(guān)系,因此,在模型的最后一層,利用CRF來對前序?qū)又械玫降娜诤咸卣餍畔⑦M行解碼。
我們獲得LSTM-SA層的序列輸出為y=[y1y2yn],CRF的標(biāo)記過程為
式中:Oi,yi表示第i個單詞標(biāo)記為yi個標(biāo)簽的概率;Ti,j表示由標(biāo)簽轉(zhuǎn)移到標(biāo)簽的概率。CRF在語句S中標(biāo)記序列的概率為
最終的解碼階段通過CRF中的標(biāo)準(zhǔn)Viterbi算法,預(yù)測出最優(yōu)的命名實體識別序列。
本節(jié)進行實驗并對結(jié)果進行分析。首先介紹算法的評價指標(biāo)和實驗參數(shù),然后描述了在該評價指標(biāo)和參數(shù)下KCLA算法的實驗結(jié)果,并和其他網(wǎng)絡(luò)結(jié)構(gòu)進行了對比。
本實驗使用準(zhǔn)確率(precision)、召回率(recall)以及F1值作為科技學(xué)術(shù)會議論文命名實體識別對比實驗的評價指標(biāo)。
準(zhǔn)確率P、召回率R、F1值的公式分別為
式中:TP表示實際為真且預(yù)測為真的個數(shù);FP表示實際為假但預(yù)測為真的個數(shù);FN為實際為真但預(yù)測為假的個數(shù)。
本實驗中,利用scrapy爬蟲框架,對知網(wǎng)上的論文數(shù)據(jù),按照不同的領(lǐng)域進行了爬取,利用按照領(lǐng)域爬取的數(shù)據(jù)進行訓(xùn)練及測試。實驗中,獲取了信息科學(xué)和機械工業(yè)分類下的論文數(shù)據(jù)各20 000條,按照8∶2的比例構(gòu)建訓(xùn)練集和測試集,將命名實體定義為研究技術(shù)(TEC)、研究問題(PRO)、研究形式(MOD) 3類實體,然后對數(shù)據(jù)集中的數(shù)據(jù)進行標(biāo)注,數(shù)據(jù)集標(biāo)注后數(shù)據(jù)分布情況如表1、2所示。
表1 信息科技領(lǐng)域數(shù)據(jù)集分布情況Table 1 Distribution of data sets in the field of information technology
表2 機械工業(yè)領(lǐng)域數(shù)據(jù)集分布情況Table 2 Distribution of data sets in the field of machinery industry
在本文實驗中,KCLA算法的關(guān)鍵詞的特征向量維度設(shè)置為50,LSTM的隱藏層維度為128,batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.001,dropout為0.5,優(yōu)化器使用Adam。
本節(jié)使用IDCNN、IDCNN+CRF、BiLSTM、BiLSTM+CRF以及Lattice-LSTM這幾種算法進行對比實驗,實驗結(jié)果在信息科學(xué)數(shù)據(jù)集下如表3所示,在機械工業(yè)數(shù)據(jù)集下如表4所示。
表3 信息科學(xué)分類論文數(shù)據(jù)不同算法的對比實驗Table 3 Comparative experiment of different algorithms in information science papers
表4 機械工業(yè)分類論文數(shù)據(jù)不同算法的對比實驗Table 4 Comparative experiment of different algorithms in mechanical industry papers
根據(jù)表3可以看出,在信息科學(xué)數(shù)據(jù)集中,本文提出的KCLA算法在性能方面要優(yōu)于對比算法。首先,IDCNN是CNN卷積神經(jīng)網(wǎng)絡(luò)的改進,它通過引入空洞卷積的概念,共享參數(shù)防止過擬合。IDCNN+CRF則在IDCNN的基礎(chǔ)上加入CRF,通過Viterbi算法,預(yù)測出全局最優(yōu)的標(biāo)注序列。CNN的優(yōu)點在于時間復(fù)雜度相對較低,但準(zhǔn)確率不及以BiLSTM為主體的算法。對比算法中,BiLSTM+CRF同時考慮到上下文的信息和字符之間的關(guān)聯(lián),因此效果相對較好,但其并沒有挖掘到潛在詞級別的語義信息,KCLA算法通過融合關(guān)鍵詞的特征,對關(guān)鍵詞信息進行預(yù)訓(xùn)練獲得對應(yīng)的詞向量,獲取到了文本中潛在的語義信息、準(zhǔn)確率、召回率、F1值均有一定程度的提高。
根據(jù)表4可以看出,在機械工業(yè)數(shù)據(jù)集的對比算法中,KCLA算法也取得了最好的識別效果。以LSTM為主體框架的算法的效果仍然優(yōu)于IDCNN算法,其中Lattice LSTM對比BiLSTM+CRF沒有明顯的提升,主要原因在于其利用通用領(lǐng)域的詞向量,可能會產(chǎn)生錯誤的詞匯邊界,因此影響了識別效果。
圖3描述在信息科學(xué)數(shù)據(jù)訓(xùn)練過程中l(wèi)oss的變化趨勢,圖4給出在第一個epoch中l(wèi)oss隨batch的變化趨勢。
圖3 loss隨epoch的變化趨勢Fig.3 Trend of loss with epoch
圖4 loss隨batch的變化趨勢Fig.4 Trend of loss with batch
根據(jù)圖3可以看出,epoch到達10時基本收斂。本文實驗中將訓(xùn)練epoch參數(shù)設(shè)置為20,但設(shè)置了提前終止條件:如果兩個周期內(nèi)驗證集準(zhǔn)確率沒有提升,則提前停止訓(xùn)練。在實驗中訓(xùn)練到第10個epoch時,提前停止。
根據(jù)圖4可以看出,loss在第一個epoch中快速下降。在機械工業(yè)數(shù)據(jù)集中的loss變化與信息科學(xué)領(lǐng)域趨勢相同。
3.4.1 LSTM 隱藏層參數(shù)對識別效果的影響
將LSTM的隱藏層維度設(shè)置不同數(shù)值進行實驗,確定其對論文數(shù)據(jù)命名實體識別效果的影響,圖5和圖6分別給出隱藏層維度對信息科學(xué)和機械工業(yè)數(shù)據(jù)識別效果的影響。
圖5 隱藏層維度對信息科學(xué)數(shù)據(jù)識別效果的影響Fig.5 Influence of hidden dimension in the information science data
圖6 隱藏層維度對機械工業(yè)數(shù)據(jù)識別效果的影響Fig.6 Influence of hidden dimension in the machinery industry data
根據(jù)圖5可以看出,在信息科學(xué)數(shù)據(jù)集中,隱藏層維度分別設(shè)置為 32、64、128、256、512。識別的各項評價指標(biāo)開始隨著隱藏層維度的增大而升高,128維時獲得最好的識別效果,對比32維的識別效果,128維的識別準(zhǔn)確率、召回率、F1值分別提升了約16%、8%、12%,可見隱藏層維度是影響命名實體識別效果的重要參數(shù)。但隨著維度的繼續(xù)增加,識別的效果并沒有提升,甚至有輕微幅度的下降。
根據(jù)圖6可以看出,在機械工業(yè)數(shù)據(jù)集中,隱藏層維度在128維和256維時都獲得了很好的識別效果。對比32維時,128維的準(zhǔn)確率、召回率、F1值分別提高了約9%、7%、8%。1到達512維時有很微小的下降,結(jié)合圖5、6可以得出結(jié)論:當(dāng)隱藏層維度較低時,KCLA不足以充分的學(xué)習(xí)到文本中的特征,影響了識別的效果。但如果維度設(shè)置的過高,可能導(dǎo)致過擬合現(xiàn)象,導(dǎo)致識別效果下降。
3.4.2 batch size參數(shù)對識別效果的影響
將batch size設(shè)置不同數(shù)值進行實驗,確定其對論文數(shù)據(jù)命名實體識別效果的影響,圖7、8分別給出batch size對信息科學(xué)和機械工業(yè)數(shù)據(jù)識別效果的影響。
圖7 batch size對信息科學(xué)數(shù)據(jù)識別效果的影響Fig.7 Influence of batch size in the information science data
根據(jù)圖7可以看出,在信息科學(xué)數(shù)據(jù)集下,從F1值來看,batch size為64時,識別效果最好,但和其他size相比,效果波動幅度很小,并沒有明顯的差異。
根據(jù)圖8可以看出,在機械工業(yè)數(shù)據(jù)集中,F(xiàn)1值在32時獲得了最好的識別效果,和在信息科學(xué)數(shù)據(jù)集中一樣,在batch size從32增加到160的整個過程中,只有小幅度的變化。同時,準(zhǔn)確率、召回率、F1值會有一定的波動,并沒有在某一個size下共同取得最好的效果。結(jié)合圖7、8可以得出結(jié)論,參數(shù)batch size對于KCLA算法影響較小。
圖8 batch size對機械工業(yè)數(shù)據(jù)識別效果的影響Fig.8 Influence of batch size in the machinery industry data
本文針對科技學(xué)術(shù)會議論文數(shù)據(jù),提出了結(jié)合關(guān)鍵詞?字符LSTM和注意力機制的命名實體識別算法(KCLA),對學(xué)術(shù)會議中包含的論文信息進行實體定義,對數(shù)據(jù)集按照實體定義進行標(biāo)注,然后利用KCLA算法對實體進行識別。其中KCLA算法模型由向量表示層、BiLSTM-SA層和CRF層構(gòu)成。實驗數(shù)據(jù)表明,KCLA算法可以對科技學(xué)術(shù)會議中論文數(shù)據(jù)的命名實體進行有效的識別。通過對比實驗,將KCLA與IDCNN, BiLSTM等算法進行比較,KCLA算法在科技學(xué)術(shù)會議論文數(shù)據(jù)集中有更好的表現(xiàn)?;谧R別出的命名實體,結(jié)合論文數(shù)據(jù)中結(jié)構(gòu)化的數(shù)據(jù)中獲取到的關(guān)聯(lián)關(guān)系,可以對學(xué)術(shù)會議數(shù)據(jù)構(gòu)建知識圖譜和精準(zhǔn)畫像,更加直觀形象地展示出科技學(xué)術(shù)會議中潛在的語義信息,為科研人員進行科研信息的獲取以及進行科研決策提供良好的數(shù)據(jù)支撐。