亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        學(xué)術(shù)文本中細(xì)粒度知識實體的關(guān)聯(lián)分析*

        2021-03-19 10:59:30章成志謝雨欣宋云天
        圖書館論壇 2021年3期
        關(guān)鍵詞:語料關(guān)聯(lián)實體

        章成志,謝雨欣,宋云天

        0 引言

        學(xué)術(shù)文獻(xiàn)作為科研成果和科學(xué)知識的載體,是科研工作者接觸最頻繁的資源之一。大數(shù)據(jù)時代學(xué)術(shù)文獻(xiàn)數(shù)量的快速增長加重了科研工作者的負(fù)擔(dān),他們必須閱讀大量文獻(xiàn)以獲取其中的知識。因此,向用戶提供精細(xì)化的、面向知識層面的信息服務(wù)具有重要意義。知識由許多相互關(guān)聯(lián)的知識單元組成,這些知識單元被封裝為學(xué)術(shù)文獻(xiàn)中的知識實體[1]。目前針對知識實體抽取及評估的研究已擴(kuò)展到領(lǐng)域知識實體層面,如生物醫(yī)學(xué)領(lǐng)域的基因、藥物和疾病[2],計算機(jī)科學(xué)領(lǐng)域的任務(wù)、數(shù)據(jù)集、評測指標(biāo)[3]。然而,當(dāng)前研究側(cè)重于單一知識實體的評估[4],對知識實體間的語義關(guān)系挖掘較少[5-6]。針對特定領(lǐng)域知識實體間的關(guān)聯(lián)分析研究,從宏觀層面可全面描繪特定領(lǐng)域知識的使用和轉(zhuǎn)移情況,進(jìn)而輔助科研工作者的文獻(xiàn)分析和知識獲取工作;從微觀層面可用以了解知識實體的應(yīng)用場景,如圍繞某個算法或模型獲取具體解決的任務(wù)、使用的數(shù)據(jù)集規(guī)模及相關(guān)評測指標(biāo)等,從而提升知識實體的評估效果。

        本研究以自然語言處理(NLP)為例,開展領(lǐng)域知識實體的關(guān)聯(lián)分析。NLP 是一個以方法和數(shù)據(jù)為核心的研究領(lǐng)域,大多數(shù)學(xué)者的研究需要算法、模型及相關(guān)工具的支持。基于此,本文針對NLP特點將相關(guān)知識實體細(xì)分為“方法實體”“工具實體”“資源實體”“指標(biāo)實體”4種類型,提取全國計算語言學(xué)會議(即中國計算語言學(xué)大會,China National Conference on Computational Linguistics,CCL)2009-2018年間收錄的中文論文,通過人工標(biāo)注的方式構(gòu)建知識實體語料庫,并以此為基礎(chǔ)進(jìn)行知識實體的關(guān)聯(lián)分析研究;所得結(jié)果可輔助相關(guān)領(lǐng)域的科研人員,尤其是初學(xué)者進(jìn)行知識實體的評估與選擇。本研究的創(chuàng)新點有:(1)利用學(xué)術(shù)論文全文對特定領(lǐng)域的知識實體進(jìn)行關(guān)聯(lián)分析,可為傳統(tǒng)基于論文題錄數(shù)據(jù)的知識實體語義分析作補(bǔ)充,并為考察知識實體間的關(guān)系提供一定依據(jù);(2)構(gòu)建了中文NLP領(lǐng)域的知識實體標(biāo)注數(shù)據(jù)集,為今后實現(xiàn)大規(guī)模的知識實體自動抽取提供訓(xùn)練語料。

        1 相關(guān)研究概述

        隨著情報大數(shù)據(jù)智能分析服務(wù)的不斷精細(xì)化,學(xué)術(shù)文獻(xiàn)分析的對象逐步從論文元數(shù)據(jù)(題錄信息)、主題、術(shù)語和關(guān)鍵詞等,擴(kuò)展到面向自然語言描述文本的知識實體及其相關(guān)工作,包括知識實體抽取和知識實體關(guān)聯(lián)分析。

        1.1 知識實體抽取

        現(xiàn)有的知識實體抽取方法可概括為4類:人工標(biāo)注[7-9]、基于規(guī)則的方法[10-12]、基于統(tǒng)計的機(jī)器學(xué)習(xí)方法[13-17]和基于深度學(xué)習(xí)的方法[18-20]。從研究的知識實體類型來說,用戶往往比較關(guān)注與特定領(lǐng)域的需求及研究特點密切相關(guān)的知識實體。以NLP為例,該領(lǐng)域的研究人員需要了解針對特定任務(wù)的評估基準(zhǔn),以進(jìn)行方法的改進(jìn)或創(chuàng)新,因此文本中涉及的方法類實體是論文的重要信息,如算法、模型、數(shù)據(jù)集及評測指標(biāo)。比如,Zadeh等[8]對300篇ACL論文摘要進(jìn)行手動注釋,把所標(biāo)注的術(shù)語分為7 個語義類別:method、tool、language resource、language resource product、model、measures、other。Hou等[3]以經(jīng)典的CNN+BiLSTM+CRF框架為基礎(chǔ),識別計算機(jī)科學(xué)領(lǐng)域?qū)W術(shù)文獻(xiàn)全文中的方法、數(shù)據(jù)集和指標(biāo)實體。余麗等[5]建立深度學(xué)習(xí)模型,從ACL 論文摘要中識別出“研究范疇”“研究方法”“實驗數(shù)據(jù)”“評價指標(biāo)及取值”4類細(xì)粒度的知識實體。

        1.2 知識實體關(guān)聯(lián)分析

        關(guān)聯(lián)分析又稱關(guān)聯(lián)規(guī)則挖掘,用于從數(shù)據(jù)集中挖掘出對象之間潛在的關(guān)聯(lián)性或相關(guān)性。對學(xué)術(shù)文獻(xiàn)中的知識實體進(jìn)行關(guān)聯(lián)分析,有助于揭示學(xué)術(shù)文獻(xiàn)中蘊(yùn)含的豐富的知識模式,對于學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)化表示以及知識實體的評估和推薦都具有一定的意義。Yao等[6]提出一種新穎的實體識別框架MDER,它結(jié)合規(guī)則嵌入技術(shù)和CNNBiLSTM-Attention-CRF 結(jié)構(gòu),用于學(xué)術(shù)文獻(xiàn)中方法和數(shù)據(jù)集實體的挖掘,并構(gòu)造復(fù)雜網(wǎng)絡(luò)圖對方法實體的關(guān)聯(lián)數(shù)據(jù)集進(jìn)行可視化分析。Zha等[21]提出一種結(jié)合注意力機(jī)制的跨語句關(guān)系抽取模型CANTOR,從學(xué)術(shù)文獻(xiàn)中抽取算法實體及算法實體之間的關(guān)系,從而構(gòu)建算法演化路線圖。另外,機(jī)器之心平臺的SOTA(State-Of-The-Art,https://www.jiqizhixin.com/sota)項目也是近幾年較為有代表性的工作之一。該項目基于人工標(biāo)注,從大量機(jī)器學(xué)習(xí)研究論文中獲取某個任務(wù)當(dāng)前最優(yōu)效果的模型,用戶可以根據(jù)自己的需要尋找機(jī)器學(xué)習(xí)對應(yīng)領(lǐng)域和任務(wù)下的SOTA論文,平臺會提供論文、模型、數(shù)據(jù)集和Benchmark的相關(guān)信息。

        綜合國內(nèi)外相關(guān)研究,本文有兩點認(rèn)識:首先,近年來知識實體抽取研究多以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法為基礎(chǔ),而人工標(biāo)注方法往往耗時耗力,但因其質(zhì)量可靠,常用于構(gòu)建實體自動抽取系統(tǒng)的模型訓(xùn)練及性能評估語料。其次,學(xué)者們往往關(guān)注實體抽取方法的改進(jìn)或者單一知識實體的評估[22-25],對知識實體間的關(guān)系分析較少。因此,本研究嘗試結(jié)合NLP領(lǐng)域的研究特點,人工標(biāo)注學(xué)術(shù)文本中的“方法實體”“工具實體”“資源實體”“指標(biāo)實體”4類細(xì)粒度的知識實體,并在此基礎(chǔ)上挖掘知識實體的關(guān)聯(lián)關(guān)系。

        2 研究方法

        2.1 基本思路

        本次知識實體關(guān)聯(lián)分析的研究框架如圖1所示。關(guān)聯(lián)結(jié)果的可視化展示可幫助用戶更好地獲取領(lǐng)域知識,如可輔助相關(guān)研究人員了解NLP領(lǐng)域常見的研究方法在本領(lǐng)域的實際應(yīng)用場景,從而根據(jù)特定的研究任務(wù)選擇合適的算法或者模型,同時可為選擇相關(guān)開源工具、數(shù)據(jù)集以及評測指標(biāo)等提供參考。

        本研究以自然語言處理(NLP)領(lǐng)域為例,選擇NLP領(lǐng)域?qū)W術(shù)論文全文作為原始語料,人工標(biāo)注論文中使用的知識實體及知識實體所在的句子。標(biāo)注工作結(jié)束后,對各種知識實體進(jìn)行名稱標(biāo)準(zhǔn)化處理,即對描述名稱不同但具體含義相同的知識實體進(jìn)行人工校對和合并。在此基礎(chǔ)上分別基于頻次分析和關(guān)聯(lián)分析考察知識實體的使用情況。本文主要依據(jù)圖2所示的流程圖展開研究。

        圖1 知識實體關(guān)聯(lián)分析框架圖

        圖2 研究流程圖

        2.2 數(shù)據(jù)集及預(yù)處理

        (1)原始語料概述。本研究原始全文語料來自全國計算語言學(xué)會議(CCL)。CCL著重致力于中國境內(nèi)各類語言的計算處理,是國內(nèi)自然語言處理領(lǐng)域權(quán)威性最高、規(guī)模最大的學(xué)術(shù)會議,而且公開歷屆會議論文全文數(shù)據(jù)集[26]。選擇CCL 會議2009-2018 年間收錄的中文論文(共728篇)作為原始標(biāo)注語料,并從中國中文信息學(xué)會計算語言學(xué)專業(yè)委員會官方網(wǎng)站(http://www.cips-cl.org/anthology)獲取論文題錄信息及全文信息。標(biāo)注論文數(shù)的年代分布如表1所示。

        表1 標(biāo)注論文數(shù)的年份分布 (單位:篇)

        (2)知識實體標(biāo)注。綜合考慮領(lǐng)域需求和以往針對NLP領(lǐng)域的知識實體分類[15],將NLP領(lǐng)域的知識實體細(xì)分為“方法實體”“工具實體”“資源實體”“指標(biāo)實體”4種類型,具體的分類標(biāo)準(zhǔn)見表2。本研究在標(biāo)注過程中先標(biāo)注包含知識實體的完整句子(以下簡稱“知識實體句”),再標(biāo)注知識實體句中的知識實體。表3為知識實體句的標(biāo)注示例。

        表2 NLP領(lǐng)域4種類型知識實體及其分類標(biāo)準(zhǔn)

        表3 NLP領(lǐng)域4種類型知識實體的語義標(biāo)注示例

        標(biāo)注規(guī)范制定后,由一位標(biāo)注人員單獨對728 篇論文進(jìn)行標(biāo)注。對于不確定的地方,標(biāo)注人員會及時與研究組的情報學(xué)教授商討,以提高標(biāo)注的準(zhǔn)確性。全部標(biāo)注工作完成后,再從原始全文語料庫中隨機(jī)抽取50篇論文,由另一位標(biāo)注人員依據(jù)最新的標(biāo)注規(guī)范進(jìn)行單獨標(biāo)注。本研究使用kappa 系數(shù)對標(biāo)注結(jié)果進(jìn)行一致性檢驗,經(jīng)計算,方法實體、工具實體、資源實體和指標(biāo)實體的一致性檢驗結(jié)果分別為0.75、0.82、0.84、0.78,說明標(biāo)注結(jié)果一致性較好[27]。

        (3)知識實體名稱標(biāo)準(zhǔn)化。考慮到學(xué)術(shù)文本中知識實體命名形式的多樣性,對部分知識實體的名稱進(jìn)行標(biāo)準(zhǔn)化處理。例如,對于方法實體“SVM”,本文將“SVM”“SVMs”“支持向量機(jī)”等實行標(biāo)準(zhǔn)化規(guī)范,統(tǒng)一表述為“SVM(Support Vector Machine)”。

        2.3 細(xì)粒度知識實體的關(guān)聯(lián)分析方法

        為考察4類知識實體在學(xué)術(shù)論文中的使用情況,首先基于頻次統(tǒng)計找出高頻的知識實體,接著結(jié)合關(guān)聯(lián)規(guī)則挖掘算法Apriori[28]和卡方值(Chi-Square)[29]探究知識實體的使用相關(guān)性。

        (1)頻次分析。以論文為單位統(tǒng)計知識實體頻次,即某種知識實體無論在一篇論文中出現(xiàn)多少次,只記為1次。因此,每個知識實體的頻次在數(shù)量上就等于使用該知識實體的論文數(shù),知識實體頻次越高,表明該知識實體被越多學(xué)者所使用。基于頻次統(tǒng)計可找出該領(lǐng)域中使用范圍較廣、影響力較大的高頻知識實體。

        (2)關(guān)聯(lián)分析?;陬l次分析的結(jié)果,進(jìn)一步結(jié)合關(guān)聯(lián)規(guī)則挖掘算法Apriori 和卡方值(Chi-Square)進(jìn)行知識實體的關(guān)聯(lián)分析,包括同類型知識實體間和不同類型知識實體間的關(guān)聯(lián)分析兩種情況。具體步驟包括:

        第一步,基于Apriori算法生成知識實體對。對同類型知識實體間的關(guān)聯(lián),以方法實體為例,將所有出現(xiàn)在同一篇論文中的方法實體進(jìn)行匹配,生成方法實體對{“方法實體1”,“方法實體2”}。不同類型知識實體間的關(guān)聯(lián)與此類似,即將出現(xiàn)在同一篇論文中不同類型的知識實體進(jìn)行匹配。考慮到NLP領(lǐng)域的相關(guān)研究大多以算法、模型等為中心,根據(jù)其特性選取合適的開源工具、數(shù)據(jù)集、評測指標(biāo)等,通過實驗研究對算法或模型等的性能進(jìn)行評估,因此本研究只針對方法實體進(jìn)行不同類型知識實體間的關(guān)聯(lián)分析,即生成{“方法實體”,“工具實體”}、{“方法實體”,“資源實體”}和{“方法實體”,“指標(biāo)實體”}這3種知識實體對,使知識實體關(guān)聯(lián)分析的結(jié)果更貼合NLP領(lǐng)域研究方法的使用需求及特點。

        第二步,計算所有知識實體對中兩個知識實體間的卡方值??ǚ街凳欠菂?shù)檢驗中的一個統(tǒng)計量,它的作用是檢驗數(shù)據(jù)的相關(guān)性,可用于兩個分類變量的關(guān)聯(lián)性分析??ǚ街当阮l次更能反映兩個知識實體間的關(guān)聯(lián)性強(qiáng)弱,因此本文先基于頻次篩選出高頻的知識實體對,再以卡方值作為知識實體間關(guān)聯(lián)性強(qiáng)弱的度量指標(biāo)。

        3 結(jié)果分析

        本研究共標(biāo)注728篇CCL會議收錄的中文論文,每類知識實體所在論文數(shù)和知識實體總數(shù)的統(tǒng)計情況見表4。為便于用戶瀏覽和發(fā)現(xiàn)領(lǐng)域知識,借助科學(xué)知識圖譜軟件VOSviewer對前文獲取的關(guān)聯(lián)數(shù)據(jù)進(jìn)行可視化分析。

        表4 知識實體標(biāo)注數(shù)據(jù)集統(tǒng)計信息

        3.1 同類型知識實體的關(guān)聯(lián)分析

        獲取同類型知識實體的關(guān)聯(lián)數(shù)據(jù)后,首先過濾掉所有頻次為1的知識實體對,然后構(gòu)建復(fù)雜網(wǎng)絡(luò),結(jié)果見圖3-6。復(fù)雜網(wǎng)絡(luò)圖中的每個節(jié)點對應(yīng)一個知識實體,節(jié)點的大小與該節(jié)點的“度”(即與該節(jié)點有邊相連的其他節(jié)點的數(shù)目)成正比;邊連接著出現(xiàn)在同一篇論文中的兩個知識實體,邊的權(quán)重為這兩個知識實體的卡方值。

        圖3 方法實體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

        (1)方法實體間的關(guān)聯(lián)分析結(jié)果。如圖3 所示,在4類知識實體中,方法實體的總體數(shù)量最大,說明NLP領(lǐng)域注重對研究方法的使用。其中,與其他方法實體關(guān)聯(lián)最多的是統(tǒng)計語言模型N-gram,其次是用于評估模型的交叉驗證法和傳統(tǒng)的基于規(guī)則的方法。機(jī)器學(xué)習(xí)算法也引起很多關(guān)注,SVM、CRF、最大熵模型、決策樹模型的使用次數(shù)比較高(對應(yīng)節(jié)點面積較大),而樸素貝葉斯、KMeans、LDA、KNN 等也較為常用。TF-IDF 和向量空間模型(VSM)通常一起用作文本表示方法。深度學(xué)習(xí)領(lǐng)域的相關(guān)方法實體,如LSTM、 BiLSTM、 CNN、RNN、Attention 等往往也是一起使用的。

        (2)工具實體間的關(guān)聯(lián)分析結(jié)果。如圖4 所示,工具實體總量較少,說明在NLP 領(lǐng)域的相關(guān)學(xué)術(shù)論文中工具實體的出現(xiàn)較少。工具實體ICTCLAS 和Stanford CoreNLP 與其他工具實體的共現(xiàn)頻次最高,其次是機(jī)器翻譯領(lǐng)域的工具實體,如GIZA++、Moses 和SRILM,它們經(jīng)常是一起使用的;此外,詞向量計算工具Word2vec和分詞工具Jieba也常與其他工具一起使用。國內(nèi)研究者也經(jīng)常使用機(jī)器學(xué)習(xí)相關(guān)工具,如CRF++、LibSVM、MaxEnt工具包。

        圖4 工具實體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

        圖5 資源實體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

        圖6 指標(biāo)實體關(guān)聯(lián)結(jié)果網(wǎng)絡(luò)

        (3)資源實體間的關(guān)聯(lián)分析結(jié)果。如圖5 所示,HowNet、 Gigaword、 同義詞林和人民日報等都是使用頻次較高的資源實體;而且,搜狗實驗室相關(guān)資源(包括搜狗新聞、搜狗詞典等)、微博、Wiki(維基百科)和百度搜索相關(guān)資源(包括百度百科、百度貼吧、百度新聞等)經(jīng)常和HowNet、同義詞林一起使用。研究者也經(jīng)常使用一些評測語料,如NIST 評測語料、Senseval/Semeval 評測語料、NLP&CC 評測語料和CoNLL評測語料。

        (4)指標(biāo)實體間的關(guān)聯(lián)分析結(jié)果。圖6中面積最大的節(jié)點對應(yīng)指標(biāo)實體“F-measure”,即該節(jié)點的“度”數(shù)最大,表明“F-measure”最經(jīng)常與其他指標(biāo)實體一起使用;同時可看到,與“F-measure”聯(lián)系較為緊密的指標(biāo)實體有“Recall”“Precision”“Accuracy”等,這些都是NLP中使用頻率最高的評測指標(biāo),常用于分類任務(wù)的評測;此外,還有一些衍生出來的統(tǒng)計指標(biāo),如“F-measure”附近的“Macro-F1”“ROC 曲線”等。機(jī)器翻譯評價指標(biāo)(如“BLEU”)也較為常用,與之相關(guān)的有“NIST”“METEOR”“CIDEr”等。BLEU 是最早提出的機(jī)器翻譯評價指標(biāo),NIST(National Institute of standards and Technology)是在BLEU基礎(chǔ)上的一種改進(jìn),METEOR 測度的目的是解決BLEU標(biāo)準(zhǔn)中一些固有的缺陷,而CIDEr最早是針對圖片摘要問題提出的度量標(biāo)準(zhǔn)。此外,指標(biāo)實體“Coverage”是多標(biāo)簽學(xué)習(xí)系統(tǒng)的評價指標(biāo),與其相關(guān)的常用指標(biāo)有Hamming Loss、One Error、Ranking loss 和Average Precision等,這與圖6展示的結(jié)果是一致的。

        3.2 不同類型知識實體的關(guān)聯(lián)分析

        對不同類型知識實體的關(guān)聯(lián)結(jié)果,同樣以復(fù)雜網(wǎng)絡(luò)形式展示。由于不同類型知識實體對中包含的節(jié)點數(shù)量較多,為了更清晰地展示關(guān)聯(lián)結(jié)果,本文過濾所有共現(xiàn)頻次小于等于2的知識實體對,與“方法實體”相關(guān)的分析結(jié)果如圖7所示。圖7給出了方法實體和其他3種知識實體的關(guān)聯(lián)結(jié)果。從整體的分布來看,與其他知識實體關(guān)聯(lián)性較強(qiáng)的方法實體(紅色節(jié)點)有N-gram、交叉驗證、基于規(guī)則的方法、SVM、CRF、最大熵模型和TF-IDF等,這些都是該領(lǐng)域常用的經(jīng)典研究方法;同時,可以看到方法實體的分布比較集中,反映了NLP領(lǐng)域的研究往往涉及多種研究方法,如數(shù)據(jù)的采集和預(yù)處理以及具體的實驗步驟都要使用不同的研究方法,其中實驗步驟經(jīng)常對多種類似的算法或模型進(jìn)行性能比較。另外,與方法實體的關(guān)聯(lián)較為密切的工具實體(綠色節(jié)點)有ICTCLAS、Stanford CoreNLP、Word2vec、LTP、CRF++等,這些都是該領(lǐng)域使用較為廣泛的開源工具。而資源實體(藍(lán)色節(jié)點)的總體數(shù)量則相對較少,反映了該領(lǐng)域可使用的數(shù)據(jù)集、語料庫等資源相對較少;此外,可以看到資源實體在復(fù)雜網(wǎng)絡(luò)圖中的分布較為均勻,沒有明顯的聚集現(xiàn)象,因為該領(lǐng)域的研究者針對特定的研究任務(wù)往往只會選取一個合適的數(shù)據(jù)集,一般很少針對不同的數(shù)據(jù)集進(jìn)行研究方法的評測和比較。圖7也表明,大多數(shù)方法實體最常搭配的指標(biāo)實體(黃色節(jié)點)有F-measure、Recall、Precision等,而且這幾個指標(biāo)有明顯的聚集現(xiàn)象,說明它們經(jīng)常被同時用作模型性能評估的評測指標(biāo)。

        同理可得到“工具實體-指標(biāo)實體”“工具實體-資源實體”“資源實體-指標(biāo)實體”的復(fù)雜網(wǎng)絡(luò)圖,限于篇幅,這里不再展示這部分內(nèi)容的具體結(jié)果。從上面的可視化結(jié)果分析中可以發(fā)現(xiàn):首先,NLP領(lǐng)域中,知識實體間的關(guān)聯(lián)分析結(jié)果基本符合該領(lǐng)域常見知識實體的使用規(guī)律,這說明針對知識實體的關(guān)聯(lián)分析可為建立各類型知識實體間的語義關(guān)系網(wǎng)絡(luò)提供一定依據(jù),有助于科研人員全面了解特定領(lǐng)域知識實體的具體使用及應(yīng)用情況;其次,后續(xù)可將各種NLP任務(wù)與知識實體的關(guān)聯(lián)分析結(jié)果結(jié)合起來,從而針對具體的應(yīng)用場景找到最合適的方法、工具及評價指標(biāo)等知識實體,服務(wù)于知識實體的評估與推薦。

        4 結(jié)論與展望

        本文以自然語言處理領(lǐng)域為例,基于學(xué)術(shù)全文本內(nèi)容,通過人工標(biāo)注“方法實體”“工具實體”“資源實體”“指標(biāo)實體”4類細(xì)粒度的知識實體,構(gòu)建了一個知識實體語料庫。在此基礎(chǔ)上對各類知識實體進(jìn)行頻次統(tǒng)計,并結(jié)合Apriori算法和卡方值挖掘不同知識實體在使用上的相關(guān)性。知識實體間的關(guān)聯(lián)分析,不但可以讓研究人員更全面地了解特定領(lǐng)域方法實體的實際使用情況,并且有利于知識實體的科學(xué)評估。

        本研究存在的不足有:一是采取人工標(biāo)注的方式抽取學(xué)術(shù)文本中的細(xì)粒度知識實體,標(biāo)注難度大,費時費力,且標(biāo)注質(zhì)量依賴于標(biāo)注者的判斷,語義標(biāo)注的內(nèi)容和規(guī)模也相對有限;二是只選取CCL會議收錄的中文論文作為標(biāo)注樣本,樣本量相對較小。未來將考慮從以下幾個方面進(jìn)行改進(jìn):(1)擴(kuò)大學(xué)術(shù)全文語料庫的規(guī)模,并以自然語言處理領(lǐng)域的英文論文為原始語料,用傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法實現(xiàn)對知識實體的自動抽

        ??;(2)增加學(xué)術(shù)文獻(xiàn)的主題、任務(wù)等知識實體類型,從而進(jìn)行更多維度的分析;(3)加入時間維度,構(gòu)建知識實體的動態(tài)關(guān)聯(lián)網(wǎng)絡(luò),用于揭示知識實體的演化情況;(4)根據(jù)細(xì)粒度知識實體間的關(guān)聯(lián)分析,進(jìn)行知識實體推薦的相關(guān)應(yīng)用研究。

        猜你喜歡
        語料關(guān)聯(lián)實體
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        振興實體經(jīng)濟(jì)地方如何“釘釘子”
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        伊人中文字幕亚洲精品乱码| 亚洲日韩欧美一区二区三区| 日本国产一区二区三区在线观看| 国产三级精品三级在专区中文 | 尹人香蕉久久99天天拍| 日日摸天天摸人人看| 亚洲国产夜色在线观看| 亚洲精品国产一区av| 在线视频中文字幕一区二区三区| 精品无码国产自产拍在线观看蜜| 日本精品一区二区三区在线视频 | 亚洲色www成人永久网址| 337p日本欧洲亚洲大胆色噜噜| 亚洲中文字幕高清乱码毛片| 激情精品一区二区三区| 国产性生大片免费观看性| 欧美深夜福利网站在线观看| 在线亚洲免费精品视频| 人妻少妇精品中文字幕专区| 在线综合亚洲欧洲综合网站| 国产一级三级三级在线视| 精品久久免费国产乱色也| 少妇被又大又粗又爽毛片久久黑人 | 麻豆夫妻在线视频观看| 多毛小伙内射老太婆| 日出水了特别黄的视频| 亚洲欧美日韩中文v在线| 午夜一区二区三区福利视频| 亚洲综合天堂av网站在线观看| 欧洲一卡2卡三卡4卡免费网站 | 亚洲国产av导航第一福利网| 人妖另类综合视频网站| 日韩国产自拍视频在线观看| 亚洲av永久无码天堂网| 香蕉久久久久久久av网站| 亚洲国产精品综合久久20| 在线国产丝袜自拍观看| 免费高清av一区二区三区 | 狠狠cao日日橹夜夜十橹| 日本本土精品午夜视频| 亚洲乳大丰满中文字幕|