章成志,謝雨欣,宋云天
學(xué)術(shù)文獻(xiàn)作為科研成果和科學(xué)知識的載體,是科研工作者接觸最頻繁的資源之一。大數(shù)據(jù)時代學(xué)術(shù)文獻(xiàn)數(shù)量的快速增長加重了科研工作者的負(fù)擔(dān),他們必須閱讀大量文獻(xiàn)以獲取其中的知識。因此,向用戶提供精細(xì)化的、面向知識層面的信息服務(wù)具有重要意義。知識由許多相互關(guān)聯(lián)的知識單元組成,這些知識單元被封裝為學(xué)術(shù)文獻(xiàn)中的知識實體[1]。目前針對知識實體抽取及評估的研究已擴(kuò)展到領(lǐng)域知識實體層面,如生物醫(yī)學(xué)領(lǐng)域的基因、藥物和疾病[2],計算機(jī)科學(xué)領(lǐng)域的任務(wù)、數(shù)據(jù)集、評測指標(biāo)[3]。然而,當(dāng)前研究側(cè)重于單一知識實體的評估[4],對知識實體間的語義關(guān)系挖掘較少[5-6]。針對特定領(lǐng)域知識實體間的關(guān)聯(lián)分析研究,從宏觀層面可全面描繪特定領(lǐng)域知識的使用和轉(zhuǎn)移情況,進(jìn)而輔助科研工作者的文獻(xiàn)分析和知識獲取工作;從微觀層面可用以了解知識實體的應(yīng)用場景,如圍繞某個算法或模型獲取具體解決的任務(wù)、使用的數(shù)據(jù)集規(guī)模及相關(guān)評測指標(biāo)等,從而提升知識實體的評估效果。
本研究以自然語言處理(NLP)為例,開展領(lǐng)域知識實體的關(guān)聯(lián)分析。NLP 是一個以方法和數(shù)據(jù)為核心的研究領(lǐng)域,大多數(shù)學(xué)者的研究需要算法、模型及相關(guān)工具的支持。基于此,本文針對NLP特點將相關(guān)知識實體細(xì)分為“方法實體”“工具實體”“資源實體”“指標(biāo)實體”4種類型,提取全國計算語言學(xué)會議(即中國計算語言學(xué)大會,China National Conference on Computational Linguistics,CCL)2009-2018年間收錄的中文論文,通過人工標(biāo)注的方式構(gòu)建知識實體語料庫,并以此為基礎(chǔ)進(jìn)行知識實體的關(guān)聯(lián)分析研究;所得結(jié)果可輔助相關(guān)領(lǐng)域的科研人員,尤其是初學(xué)者進(jìn)行知識實體的評估與選擇。本研究的創(chuàng)新點有:(1)利用學(xué)術(shù)論文全文對特定領(lǐng)域的知識實體進(jìn)行關(guān)聯(lián)分析,可為傳統(tǒng)基于論文題錄數(shù)據(jù)的知識實體語義分析作補(bǔ)充,并為考察知識實體間的關(guān)系提供一定依據(jù);(2)構(gòu)建了中文NLP領(lǐng)域的知識實體標(biāo)注數(shù)據(jù)集,為今后實現(xiàn)大規(guī)模的知識實體自動抽取提供訓(xùn)練語料。
隨著情報大數(shù)據(jù)智能分析服務(wù)的不斷精細(xì)化,學(xué)術(shù)文獻(xiàn)分析的對象逐步從論文元數(shù)據(jù)(題錄信息)、主題、術(shù)語和關(guān)鍵詞等,擴(kuò)展到面向自然語言描述文本的知識實體及其相關(guān)工作,包括知識實體抽取和知識實體關(guān)聯(lián)分析。
現(xiàn)有的知識實體抽取方法可概括為4類:人工標(biāo)注[7-9]、基于規(guī)則的方法[10-12]、基于統(tǒng)計的機(jī)器學(xué)習(xí)方法[13-17]和基于深度學(xué)習(xí)的方法[18-20]。從研究的知識實體類型來說,用戶往往比較關(guān)注與特定領(lǐng)域的需求及研究特點密切相關(guān)的知識實體。以NLP為例,該領(lǐng)域的研究人員需要了解針對特定任務(wù)的評估基準(zhǔn),以進(jìn)行方法的改進(jìn)或創(chuàng)新,因此文本中涉及的方法類實體是論文的重要信息,如算法、模型、數(shù)據(jù)集及評測指標(biāo)。比如,Zadeh等[8]對300篇ACL論文摘要進(jìn)行手動注釋,把所標(biāo)注的術(shù)語分為7 個語義類別:method、tool、language resource、language resource product、model、measures、other。Hou等[3]以經(jīng)典的CNN+BiLSTM+CRF框架為基礎(chǔ),識別計算機(jī)科學(xué)領(lǐng)域?qū)W術(shù)文獻(xiàn)全文中的方法、數(shù)據(jù)集和指標(biāo)實體。余麗等[5]建立深度學(xué)習(xí)模型,從ACL 論文摘要中識別出“研究范疇”“研究方法”“實驗數(shù)據(jù)”“評價指標(biāo)及取值”4類細(xì)粒度的知識實體。
關(guān)聯(lián)分析又稱關(guān)聯(lián)規(guī)則挖掘,用于從數(shù)據(jù)集中挖掘出對象之間潛在的關(guān)聯(lián)性或相關(guān)性。對學(xué)術(shù)文獻(xiàn)中的知識實體進(jìn)行關(guān)聯(lián)分析,有助于揭示學(xué)術(shù)文獻(xiàn)中蘊(yùn)含的豐富的知識模式,對于學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)化表示以及知識實體的評估和推薦都具有一定的意義。Yao等[6]提出一種新穎的實體識別框架MDER,它結(jié)合規(guī)則嵌入技術(shù)和CNNBiLSTM-Attention-CRF 結(jié)構(gòu),用于學(xué)術(shù)文獻(xiàn)中方法和數(shù)據(jù)集實體的挖掘,并構(gòu)造復(fù)雜網(wǎng)絡(luò)圖對方法實體的關(guān)聯(lián)數(shù)據(jù)集進(jìn)行可視化分析。Zha等[21]提出一種結(jié)合注意力機(jī)制的跨語句關(guān)系抽取模型CANTOR,從學(xué)術(shù)文獻(xiàn)中抽取算法實體及算法實體之間的關(guān)系,從而構(gòu)建算法演化路線圖。另外,機(jī)器之心平臺的SOTA(State-Of-The-Art,https://www.jiqizhixin.com/sota)項目也是近幾年較為有代表性的工作之一。該項目基于人工標(biāo)注,從大量機(jī)器學(xué)習(xí)研究論文中獲取某個任務(wù)當(dāng)前最優(yōu)效果的模型,用戶可以根據(jù)自己的需要尋找機(jī)器學(xué)習(xí)對應(yīng)領(lǐng)域和任務(wù)下的SOTA論文,平臺會提供論文、模型、數(shù)據(jù)集和Benchmark的相關(guān)信息。
綜合國內(nèi)外相關(guān)研究,本文有兩點認(rèn)識:首先,近年來知識實體抽取研究多以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法為基礎(chǔ),而人工標(biāo)注方法往往耗時耗力,但因其質(zhì)量可靠,常用于構(gòu)建實體自動抽取系統(tǒng)的模型訓(xùn)練及性能評估語料。其次,學(xué)者們往往關(guān)注實體抽取方法的改進(jìn)或者單一知識實體的評估[22-25],對知識實體間的關(guān)系分析較少。因此,本研究嘗試結(jié)合NLP領(lǐng)域的研究特點,人工標(biāo)注學(xué)術(shù)文本中的“方法實體”“工具實體”“資源實體”“指標(biāo)實體”4類細(xì)粒度的知識實體,并在此基礎(chǔ)上挖掘知識實體的關(guān)聯(lián)關(guān)系。
本次知識實體關(guān)聯(lián)分析的研究框架如圖1所示。關(guān)聯(lián)結(jié)果的可視化展示可幫助用戶更好地獲取領(lǐng)域知識,如可輔助相關(guān)研究人員了解NLP領(lǐng)域常見的研究方法在本領(lǐng)域的實際應(yīng)用場景,從而根據(jù)特定的研究任務(wù)選擇合適的算法或者模型,同時可為選擇相關(guān)開源工具、數(shù)據(jù)集以及評測指標(biāo)等提供參考。
本研究以自然語言處理(NLP)領(lǐng)域為例,選擇NLP領(lǐng)域?qū)W術(shù)論文全文作為原始語料,人工標(biāo)注論文中使用的知識實體及知識實體所在的句子。標(biāo)注工作結(jié)束后,對各種知識實體進(jìn)行名稱標(biāo)準(zhǔn)化處理,即對描述名稱不同但具體含義相同的知識實體進(jìn)行人工校對和合并。在此基礎(chǔ)上分別基于頻次分析和關(guān)聯(lián)分析考察知識實體的使用情況。本文主要依據(jù)圖2所示的流程圖展開研究。
圖1 知識實體關(guān)聯(lián)分析框架圖
圖2 研究流程圖
(1)原始語料概述。本研究原始全文語料來自全國計算語言學(xué)會議(CCL)。CCL著重致力于中國境內(nèi)各類語言的計算處理,是國內(nèi)自然語言處理領(lǐng)域權(quán)威性最高、規(guī)模最大的學(xué)術(shù)會議,而且公開歷屆會議論文全文數(shù)據(jù)集[26]。選擇CCL 會議2009-2018 年間收錄的中文論文(共728篇)作為原始標(biāo)注語料,并從中國中文信息學(xué)會計算語言學(xué)專業(yè)委員會官方網(wǎng)站(http://www.cips-cl.org/anthology)獲取論文題錄信息及全文信息。標(biāo)注論文數(shù)的年代分布如表1所示。
表1 標(biāo)注論文數(shù)的年份分布 (單位:篇)
(2)知識實體標(biāo)注。綜合考慮領(lǐng)域需求和以往針對NLP領(lǐng)域的知識實體分類[15],將NLP領(lǐng)域的知識實體細(xì)分為“方法實體”“工具實體”“資源實體”“指標(biāo)實體”4種類型,具體的分類標(biāo)準(zhǔn)見表2。本研究在標(biāo)注過程中先標(biāo)注包含知識實體的完整句子(以下簡稱“知識實體句”),再標(biāo)注知識實體句中的知識實體。表3為知識實體句的標(biāo)注示例。
表2 NLP領(lǐng)域4種類型知識實體及其分類標(biāo)準(zhǔn)
表3 NLP領(lǐng)域4種類型知識實體的語義標(biāo)注示例
標(biāo)注規(guī)范制定后,由一位標(biāo)注人員單獨對728 篇論文進(jìn)行標(biāo)注。對于不確定的地方,標(biāo)注人員會及時與研究組的情報學(xué)教授商討,以提高標(biāo)注的準(zhǔn)確性。全部標(biāo)注工作完成后,再從原始全文語料庫中隨機(jī)抽取50篇論文,由另一位標(biāo)注人員依據(jù)最新的標(biāo)注規(guī)范進(jìn)行單獨標(biāo)注。本研究使用kappa 系數(shù)對標(biāo)注結(jié)果進(jìn)行一致性檢驗,經(jīng)計算,方法實體、工具實體、資源實體和指標(biāo)實體的一致性檢驗結(jié)果分別為0.75、0.82、0.84、0.78,說明標(biāo)注結(jié)果一致性較好[27]。
(3)知識實體名稱標(biāo)準(zhǔn)化。考慮到學(xué)術(shù)文本中知識實體命名形式的多樣性,對部分知識實體的名稱進(jìn)行標(biāo)準(zhǔn)化處理。例如,對于方法實體“SVM”,本文將“SVM”“SVMs”“支持向量機(jī)”等實行標(biāo)準(zhǔn)化規(guī)范,統(tǒng)一表述為“SVM(Support Vector Machine)”。
為考察4類知識實體在學(xué)術(shù)論文中的使用情況,首先基于頻次統(tǒng)計找出高頻的知識實體,接著結(jié)合關(guān)聯(lián)規(guī)則挖掘算法Apriori[28]和卡方值(Chi-Square)[29]探究知識實體的使用相關(guān)性。
(1)頻次分析。以論文為單位統(tǒng)計知識實體頻次,即某種知識實體無論在一篇論文中出現(xiàn)多少次,只記為1次。因此,每個知識實體的頻次在數(shù)量上就等于使用該知識實體的論文數(shù),知識實體頻次越高,表明該知識實體被越多學(xué)者所使用。基于頻次統(tǒng)計可找出該領(lǐng)域中使用范圍較廣、影響力較大的高頻知識實體。
(2)關(guān)聯(lián)分析?;陬l次分析的結(jié)果,進(jìn)一步結(jié)合關(guān)聯(lián)規(guī)則挖掘算法Apriori 和卡方值(Chi-Square)進(jìn)行知識實體的關(guān)聯(lián)分析,包括同類型知識實體間和不同類型知識實體間的關(guān)聯(lián)分析兩種情況。具體步驟包括:
第一步,基于Apriori算法生成知識實體對。對同類型知識實體間的關(guān)聯(lián),以方法實體為例,將所有出現(xiàn)在同一篇論文中的方法實體進(jìn)行匹配,生成方法實體對{“方法實體1”,“方法實體2”}。不同類型知識實體間的關(guān)聯(lián)與此類似,即將出現(xiàn)在同一篇論文中不同類型的知識實體進(jìn)行匹配。考慮到NLP領(lǐng)域的相關(guān)研究大多以算法、模型等為中心,根據(jù)其特性選取合適的開源工具、數(shù)據(jù)集、評測指標(biāo)等,通過實驗研究對算法或模型等的性能進(jìn)行評估,因此本研究只針對方法實體進(jìn)行不同類型知識實體間的關(guān)聯(lián)分析,即生成{“方法實體”,“工具實體”}、{“方法實體”,“資源實體”}和{“方法實體”,“指標(biāo)實體”}這3種知識實體對,使知識實體關(guān)聯(lián)分析的結(jié)果更貼合NLP領(lǐng)域研究方法的使用需求及特點。
第二步,計算所有知識實體對中兩個知識實體間的卡方值??ǚ街凳欠菂?shù)檢驗中的一個統(tǒng)計量,它的作用是檢驗數(shù)據(jù)的相關(guān)性,可用于兩個分類變量的關(guān)聯(lián)性分析??ǚ街当阮l次更能反映兩個知識實體間的關(guān)聯(lián)性強(qiáng)弱,因此本文先基于頻次篩選出高頻的知識實體對,再以卡方值作為知識實體間關(guān)聯(lián)性強(qiáng)弱的度量指標(biāo)。
本研究共標(biāo)注728篇CCL會議收錄的中文論文,每類知識實體所在論文數(shù)和知識實體總數(shù)的統(tǒng)計情況見表4。為便于用戶瀏覽和發(fā)現(xiàn)領(lǐng)域知識,借助科學(xué)知識圖譜軟件VOSviewer對前文獲取的關(guān)聯(lián)數(shù)據(jù)進(jìn)行可視化分析。
表4 知識實體標(biāo)注數(shù)據(jù)集統(tǒng)計信息
獲取同類型知識實體的關(guān)聯(lián)數(shù)據(jù)后,首先過濾掉所有頻次為1的知識實體對,然后構(gòu)建復(fù)雜網(wǎng)絡(luò),結(jié)果見圖3-6。復(fù)雜網(wǎng)絡(luò)圖中的每個節(jié)點對應(yīng)一個知識實體,節(jié)點的大小與該節(jié)點的“度”(即與該節(jié)點有邊相連的其他節(jié)點的數(shù)目)成正比;邊連接著出現(xiàn)在同一篇論文中的兩個知識實體,邊的權(quán)重為這兩個知識實體的卡方值。
圖3 方法實體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)
(1)方法實體間的關(guān)聯(lián)分析結(jié)果。如圖3 所示,在4類知識實體中,方法實體的總體數(shù)量最大,說明NLP領(lǐng)域注重對研究方法的使用。其中,與其他方法實體關(guān)聯(lián)最多的是統(tǒng)計語言模型N-gram,其次是用于評估模型的交叉驗證法和傳統(tǒng)的基于規(guī)則的方法。機(jī)器學(xué)習(xí)算法也引起很多關(guān)注,SVM、CRF、最大熵模型、決策樹模型的使用次數(shù)比較高(對應(yīng)節(jié)點面積較大),而樸素貝葉斯、KMeans、LDA、KNN 等也較為常用。TF-IDF 和向量空間模型(VSM)通常一起用作文本表示方法。深度學(xué)習(xí)領(lǐng)域的相關(guān)方法實體,如LSTM、 BiLSTM、 CNN、RNN、Attention 等往往也是一起使用的。
(2)工具實體間的關(guān)聯(lián)分析結(jié)果。如圖4 所示,工具實體總量較少,說明在NLP 領(lǐng)域的相關(guān)學(xué)術(shù)論文中工具實體的出現(xiàn)較少。工具實體ICTCLAS 和Stanford CoreNLP 與其他工具實體的共現(xiàn)頻次最高,其次是機(jī)器翻譯領(lǐng)域的工具實體,如GIZA++、Moses 和SRILM,它們經(jīng)常是一起使用的;此外,詞向量計算工具Word2vec和分詞工具Jieba也常與其他工具一起使用。國內(nèi)研究者也經(jīng)常使用機(jī)器學(xué)習(xí)相關(guān)工具,如CRF++、LibSVM、MaxEnt工具包。
圖4 工具實體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)
圖5 資源實體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)
圖6 指標(biāo)實體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)
(3)資源實體間的關(guān)聯(lián)分析結(jié)果。如圖5 所示,HowNet、 Gigaword、 同義詞林和人民日報等都是使用頻次較高的資源實體;而且,搜狗實驗室相關(guān)資源(包括搜狗新聞、搜狗詞典等)、微博、Wiki(維基百科)和百度搜索相關(guān)資源(包括百度百科、百度貼吧、百度新聞等)經(jīng)常和HowNet、同義詞林一起使用。研究者也經(jīng)常使用一些評測語料,如NIST 評測語料、Senseval/Semeval 評測語料、NLP&CC 評測語料和CoNLL評測語料。
(4)指標(biāo)實體間的關(guān)聯(lián)分析結(jié)果。圖6中面積最大的節(jié)點對應(yīng)指標(biāo)實體“F-measure”,即該節(jié)點的“度”數(shù)最大,表明“F-measure”最經(jīng)常與其他指標(biāo)實體一起使用;同時可看到,與“F-measure”聯(lián)系較為緊密的指標(biāo)實體有“Recall”“Precision”“Accuracy”等,這些都是NLP中使用頻率最高的評測指標(biāo),常用于分類任務(wù)的評測;此外,還有一些衍生出來的統(tǒng)計指標(biāo),如“F-measure”附近的“Macro-F1”“ROC 曲線”等。機(jī)器翻譯評價指標(biāo)(如“BLEU”)也較為常用,與之相關(guān)的有“NIST”“METEOR”“CIDEr”等。BLEU 是最早提出的機(jī)器翻譯評價指標(biāo),NIST(National Institute of standards and Technology)是在BLEU基礎(chǔ)上的一種改進(jìn),METEOR 測度的目的是解決BLEU標(biāo)準(zhǔn)中一些固有的缺陷,而CIDEr最早是針對圖片摘要問題提出的度量標(biāo)準(zhǔn)。此外,指標(biāo)實體“Coverage”是多標(biāo)簽學(xué)習(xí)系統(tǒng)的評價指標(biāo),與其相關(guān)的常用指標(biāo)有Hamming Loss、One Error、Ranking loss 和Average Precision等,這與圖6展示的結(jié)果是一致的。
對不同類型知識實體的關(guān)聯(lián)結(jié)果,同樣以復(fù)雜網(wǎng)絡(luò)形式展示。由于不同類型知識實體對中包含的節(jié)點數(shù)量較多,為了更清晰地展示關(guān)聯(lián)結(jié)果,本文過濾所有共現(xiàn)頻次小于等于2的知識實體對,與“方法實體”相關(guān)的分析結(jié)果如圖7所示。圖7給出了方法實體和其他3種知識實體的關(guān)聯(lián)結(jié)果。從整體的分布來看,與其他知識實體關(guān)聯(lián)性較強(qiáng)的方法實體(紅色節(jié)點)有N-gram、交叉驗證、基于規(guī)則的方法、SVM、CRF、最大熵模型和TF-IDF等,這些都是該領(lǐng)域常用的經(jīng)典研究方法;同時,可以看到方法實體的分布比較集中,反映了NLP領(lǐng)域的研究往往涉及多種研究方法,如數(shù)據(jù)的采集和預(yù)處理以及具體的實驗步驟都要使用不同的研究方法,其中實驗步驟經(jīng)常對多種類似的算法或模型進(jìn)行性能比較。另外,與方法實體的關(guān)聯(lián)較為密切的工具實體(綠色節(jié)點)有ICTCLAS、Stanford CoreNLP、Word2vec、LTP、CRF++等,這些都是該領(lǐng)域使用較為廣泛的開源工具。而資源實體(藍(lán)色節(jié)點)的總體數(shù)量則相對較少,反映了該領(lǐng)域可使用的數(shù)據(jù)集、語料庫等資源相對較少;此外,可以看到資源實體在復(fù)雜網(wǎng)絡(luò)圖中的分布較為均勻,沒有明顯的聚集現(xiàn)象,因為該領(lǐng)域的研究者針對特定的研究任務(wù)往往只會選取一個合適的數(shù)據(jù)集,一般很少針對不同的數(shù)據(jù)集進(jìn)行研究方法的評測和比較。圖7也表明,大多數(shù)方法實體最常搭配的指標(biāo)實體(黃色節(jié)點)有F-measure、Recall、Precision等,而且這幾個指標(biāo)有明顯的聚集現(xiàn)象,說明它們經(jīng)常被同時用作模型性能評估的評測指標(biāo)。
同理可得到“工具實體-指標(biāo)實體”“工具實體-資源實體”“資源實體-指標(biāo)實體”的復(fù)雜網(wǎng)絡(luò)圖,限于篇幅,這里不再展示這部分內(nèi)容的具體結(jié)果。從上面的可視化結(jié)果分析中可以發(fā)現(xiàn):首先,NLP領(lǐng)域中,知識實體間的關(guān)聯(lián)分析結(jié)果基本符合該領(lǐng)域常見知識實體的使用規(guī)律,這說明針對知識實體的關(guān)聯(lián)分析可為建立各類型知識實體間的語義關(guān)系網(wǎng)絡(luò)提供一定依據(jù),有助于科研人員全面了解特定領(lǐng)域知識實體的具體使用及應(yīng)用情況;其次,后續(xù)可將各種NLP任務(wù)與知識實體的關(guān)聯(lián)分析結(jié)果結(jié)合起來,從而針對具體的應(yīng)用場景找到最合適的方法、工具及評價指標(biāo)等知識實體,服務(wù)于知識實體的評估與推薦。
本文以自然語言處理領(lǐng)域為例,基于學(xué)術(shù)全文本內(nèi)容,通過人工標(biāo)注“方法實體”“工具實體”“資源實體”“指標(biāo)實體”4類細(xì)粒度的知識實體,構(gòu)建了一個知識實體語料庫。在此基礎(chǔ)上對各類知識實體進(jìn)行頻次統(tǒng)計,并結(jié)合Apriori算法和卡方值挖掘不同知識實體在使用上的相關(guān)性。知識實體間的關(guān)聯(lián)分析,不但可以讓研究人員更全面地了解特定領(lǐng)域方法實體的實際使用情況,并且有利于知識實體的科學(xué)評估。
本研究存在的不足有:一是采取人工標(biāo)注的方式抽取學(xué)術(shù)文本中的細(xì)粒度知識實體,標(biāo)注難度大,費時費力,且標(biāo)注質(zhì)量依賴于標(biāo)注者的判斷,語義標(biāo)注的內(nèi)容和規(guī)模也相對有限;二是只選取CCL會議收錄的中文論文作為標(biāo)注樣本,樣本量相對較小。未來將考慮從以下幾個方面進(jìn)行改進(jìn):(1)擴(kuò)大學(xué)術(shù)全文語料庫的規(guī)模,并以自然語言處理領(lǐng)域的英文論文為原始語料,用傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法實現(xiàn)對知識實體的自動抽
??;(2)增加學(xué)術(shù)文獻(xiàn)的主題、任務(wù)等知識實體類型,從而進(jìn)行更多維度的分析;(3)加入時間維度,構(gòu)建知識實體的動態(tài)關(guān)聯(lián)網(wǎng)絡(luò),用于揭示知識實體的演化情況;(4)根據(jù)細(xì)粒度知識實體間的關(guān)聯(lián)分析,進(jìn)行知識實體推薦的相關(guān)應(yīng)用研究。