亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的農(nóng)業(yè)領(lǐng)域前沿研究主題識別方法研究

        2021-11-24 06:25:14李松繁黃永楊金慶
        情報(bào)工程 2021年5期
        關(guān)鍵詞:年份聚類領(lǐng)域

        李松繁 黃永 楊金慶

        1. 武漢大學(xué)信息管理學(xué)院 武漢 430072;2. 武漢大學(xué)信息檢索與知識挖掘研究所 武漢 430072

        引言

        隨著大數(shù)據(jù)時代的開啟和快速發(fā)展,海量數(shù)據(jù)支撐下的科學(xué)研究為經(jīng)濟(jì)發(fā)展、產(chǎn)業(yè)形態(tài)轉(zhuǎn)型、產(chǎn)業(yè)升級提供了強(qiáng)大的驅(qū)動力。作為科學(xué)研究中的重要數(shù)據(jù)組織形態(tài),數(shù)量龐大的科技文獻(xiàn)成為了重要的科研資產(chǎn)。在科研方法和科研數(shù)據(jù)快速更迭的背景下,如何從科技文獻(xiàn)資源中快速準(zhǔn)確地識別學(xué)科領(lǐng)域內(nèi)的研究主題,成為了科研人員的亟待解決的重要問題。

        “前沿性”是學(xué)科領(lǐng)域前沿研究主題的核心特征,實(shí)現(xiàn)對學(xué)科內(nèi)的前沿研究主題挖掘,是情報(bào)工作者的重要研究內(nèi)容。目前的學(xué)科前沿研究識別方法大多利用科技文獻(xiàn)的內(nèi)外部特征來構(gòu)建“前沿性指標(biāo)”。在外部特征方面,有學(xué)者利用科技文獻(xiàn)的引文信息構(gòu)建引文網(wǎng)絡(luò),揭示其中的學(xué)科發(fā)展脈絡(luò)[1];在內(nèi)部特征方面,研究者利用科技文獻(xiàn)的關(guān)鍵詞,使用多種分析方法識別研究前沿[2];也有學(xué)者使用熱門文本分析工具“主題模型”,對科技文獻(xiàn)內(nèi)部的淺層語義特征進(jìn)行抽取,挖掘出學(xué)科研究主題以進(jìn)行前沿研究主題探測[3]。然而基于引文網(wǎng)絡(luò)或共詞分析的前沿研究識別方法只揭示了學(xué)科研究的結(jié)構(gòu)關(guān)系,沒有考慮到學(xué)科領(lǐng)域內(nèi)研究內(nèi)容的語義特征?;谥黝}模型的前沿研究主題挖掘方法也只從淺層語義分析了學(xué)科研究主題,同時主題模型在參數(shù)設(shè)置上較為復(fù)雜,抽取主題的可解釋性也有待優(yōu)化。

        基于以上背景,本文立足于科技文獻(xiàn)資源,利用時下熱門的預(yù)訓(xùn)練模型對科學(xué)論文的文獻(xiàn)內(nèi)容進(jìn)行深入挖掘分析,提出主題新穎度、相關(guān)文獻(xiàn)指數(shù)、主題發(fā)展指數(shù)等多維前沿識別指標(biāo)來構(gòu)建一種前沿研究主題識別方法。

        1 相關(guān)研究

        “研究前沿”這一概念最早由科學(xué)計(jì)量之父普賴斯提出[4],發(fā)展到如今已有大量國內(nèi)外學(xué)者進(jìn)行了相關(guān)研究。目前已有的前沿研究識別方法主要從定性分析和定量挖掘兩方面進(jìn)行。專家判斷法是最為典型的定性分析方法,該方法利用學(xué)科領(lǐng)域內(nèi)的專家擁有的大量知識和經(jīng)驗(yàn)進(jìn)行前沿研究的判斷和預(yù)測。但該方法主觀性較強(qiáng),判斷結(jié)果可能出現(xiàn)主觀偏差[5]。

        定量分析方法是學(xué)科前沿研究的主要分析方法,根據(jù)實(shí)現(xiàn)方法可將其分為基于引文分析的方法、基于關(guān)鍵詞的分析方法和基于主題模型的識別方法等。

        (1)基于引文的分析方法

        基于引文的識別方法從科技文獻(xiàn)彼此間的引用關(guān)系出發(fā),通過構(gòu)建引文網(wǎng)絡(luò),完成相關(guān)的可視化分析和前沿主題識別[6]。

        1973年H Small[7]最早提出用共被引分析法進(jìn)行前沿主題識別研究。研究者利用文獻(xiàn)共被引關(guān)系構(gòu)建引用網(wǎng)絡(luò),進(jìn)行聚類分析,劃分關(guān)鍵節(jié)點(diǎn),結(jié)合對關(guān)鍵節(jié)點(diǎn)的內(nèi)容分析進(jìn)行前沿識別。許振亮等[8]利用引文網(wǎng)絡(luò)中關(guān)鍵被引文獻(xiàn)的內(nèi)容分析計(jì)量出前沿研究主題;潘黎等[9]基于SSCI高等教育學(xué)期刊繪制文獻(xiàn)共被引網(wǎng)絡(luò)圖譜,識別國際高等教育的研究前沿; Huang等[10]通過對比文獻(xiàn)共被引和引文耦合分析方法在探測有機(jī)發(fā)光二極管(OLED)領(lǐng)域前沿研究時發(fā)現(xiàn),引文耦合在前沿識別的數(shù)量和速度上有一定優(yōu)勢。

        基于引文分析的前沿研究識別方法起步較早,至今仍有廣泛應(yīng)用。但由于一篇文獻(xiàn)需要經(jīng)過一段較長的時間積累被引次數(shù),導(dǎo)致此方法存在時間滯后性,無法及時獲取前沿研究。同時引文耦合關(guān)系在施引文獻(xiàn)發(fā)表時就已經(jīng)確定,使得該方法缺乏動態(tài)發(fā)展性。

        (2)基于關(guān)鍵詞的識別方法

        基于關(guān)鍵詞的前沿識別方法,是以學(xué)科研究關(guān)鍵詞為出發(fā)點(diǎn),從詞匯角度進(jìn)行相關(guān)前沿探測,如詞頻分析法、共詞分析法等。

        詞頻分析法通過統(tǒng)計(jì)文獻(xiàn)主題詞的詞頻或隨著時間變化的詞頻變化率來完成前沿主題識別。研究者通常將詞頻突然增長的“突發(fā)詞”作為前沿主題詞。J Kleinberg[11]提出的突變檢測算法可以用于探測一個學(xué)科領(lǐng)域內(nèi)突然增長的研究興趣,基于此可以完成突發(fā)詞的檢測和識別。

        共詞分析法對同時出現(xiàn)在同一文獻(xiàn)中的詞匯對進(jìn)行分析,它將不同詞語進(jìn)行連接,彌補(bǔ)了詞頻分析法中主題詞孤立的缺陷,能反映出學(xué)科領(lǐng)域內(nèi)知識結(jié)構(gòu)的變化,反映學(xué)科概念和主題的增長規(guī)律[12]。章成志等[13]采用主題聚類方法,以包含時間信息的學(xué)術(shù)論文為數(shù)據(jù)集進(jìn)行主題聚類,歸納出某一學(xué)科領(lǐng)域的研究熱點(diǎn)和研究趨勢。侯海燕等[14]將共被引與共詞分析相結(jié)合的方法,利用知識圖譜,得出了科學(xué)計(jì)量學(xué)領(lǐng)域的前沿課題及重點(diǎn)研究方向。

        基于關(guān)鍵詞的前沿研究識別方法,能夠從微觀層面挖掘文本間的結(jié)構(gòu)信息,但缺乏對文本內(nèi)容語義信息的挖掘。

        (3)基于主題模型的識別方法

        以隱狄利克雷分布(Latent Dirichlet Allocation,LDA)算法[15]為代表的主題模型,用無監(jiān)督學(xué)習(xí)的方式對全文本進(jìn)行語義結(jié)構(gòu)和聚類分析,從文本中抽取有價值的主題及主題關(guān)鍵詞分布?;谥黝}模型的前沿主題識別方法,在一定程度上彌補(bǔ)了引文分析和關(guān)鍵詞分析的不足,使得前沿主題包含了更多的文本語義信息。范云滿等[16]基于LDA主題模型,構(gòu)建了主題新穎度、作者發(fā)文量、文章被引量結(jié)合的識別指標(biāo),對新興主題進(jìn)行探測。朱茂然等[17]通過不同時間窗口下的相似主題比例分布和主題-詞匯分布,分別解釋主題強(qiáng)度的變化和主題內(nèi)容的變化,并對情報(bào)學(xué)領(lǐng)域的前沿主題進(jìn)行識別和主題演化分析。楊金慶等[18]使用LDA主題模型完成多源科技文獻(xiàn)的主題抽取和主題相似度計(jì)算,尋求多源科技文獻(xiàn)主題的最優(yōu)匹配組合,完成多源科技文獻(xiàn)的時滯性計(jì)算。

        基于主題模型的前沿研究識別方法,通常需要超參數(shù)調(diào)優(yōu)來發(fā)掘主題,主題模型得到的結(jié)果解釋性程度不高,難以直觀理解主題含義,對于文本的語義理解也只停留在淺層語義挖掘上,無法獲得文本的深層語義。

        綜上,學(xué)科領(lǐng)域前沿主題識別方法已經(jīng)有了一定程度的研究,但多是從科技文獻(xiàn)的結(jié)構(gòu)關(guān)系出發(fā)進(jìn)行前沿研究識別,或?qū)萍嘉墨I(xiàn)進(jìn)行了淺層語義分析,缺乏對文獻(xiàn)內(nèi)容的深層語義挖掘,同時前沿研究主題的可解釋性也不夠突出。因此,本文擬利用期刊論文數(shù)據(jù),運(yùn)用文本句嵌入構(gòu)建、文本聚類、主題關(guān)鍵詞抽取等方法,深度挖掘數(shù)據(jù)內(nèi)部語義信息,同時提出主題新穎度、相關(guān)文獻(xiàn)指數(shù)、主題發(fā)展態(tài)勢指數(shù)等多維前沿識別指標(biāo),構(gòu)建一種基于BERT[19]的學(xué)科領(lǐng)域前沿研究主題識別方法。

        2 研究方法

        本文提出的基于BERT的學(xué)科領(lǐng)域前沿研究主題識別方法設(shè)計(jì)思路如圖(1)所示。首先,從科技文獻(xiàn)數(shù)據(jù)庫中收集期刊論文數(shù)據(jù),構(gòu)建待分析內(nèi)容語料庫;其次,對語料庫數(shù)據(jù)按照發(fā)表年份劃分時間窗口,將其歸類到不同時間窗口下;再次對數(shù)據(jù)進(jìn)行預(yù)處理,使用BERT模型構(gòu)建文本的句嵌入集合,并在此基礎(chǔ)上使用文本聚類算法進(jìn)行文本聚類,抽取聚類簇中的重要主題詞作為該類簇的主題表示;最后,計(jì)算研究主題間的相似度,構(gòu)建多維前沿識別指標(biāo),識別潛在前沿研究主題、熱門前沿研究主題和衰退前沿研究主題。

        圖1 技術(shù)路線圖

        (1)數(shù)據(jù)獲取

        本文選擇科技文獻(xiàn)數(shù)據(jù)庫作為數(shù)據(jù)來源,收集科技文獻(xiàn)的核心數(shù)據(jù),利用發(fā)表年份、摘要等字段進(jìn)行分析研究。

        (2)數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理主要包括劃分時間窗口和文本數(shù)據(jù)的分詞、去除停用詞。以科技文獻(xiàn)的不同發(fā)表年份作為時間窗口,將其劃分到不同時間窗口下,便于抽取每個時間窗口下的文獻(xiàn)主題。同時對數(shù)據(jù)進(jìn)行分詞,將分詞結(jié)果運(yùn)用于聚類簇的主題詞抽取。為了降低程序計(jì)算量,提高處理效率,本文在進(jìn)行主題抽取之前對文本停用詞進(jìn)行剔除,使得科技文獻(xiàn)主題抽取的結(jié)果更加準(zhǔn)確,更加接近文獻(xiàn)的真實(shí)主題。

        (3)研究主題抽取

        本文利用BERT預(yù)訓(xùn)練模型對不同時間窗口下的原始文本數(shù)據(jù)進(jìn)行句嵌入構(gòu)建。BERT模型是通過自監(jiān)督學(xué)習(xí),從大規(guī)模語料中獲得與具體任務(wù)無關(guān)的、獨(dú)立的模型,它能夠體現(xiàn)某一個詞在上下文中的深度語義特征。

        獲得文本的句嵌入集合后,本文使用HDBSCAN文本聚類算法[20]對句嵌入集合進(jìn)行聚類分析,獲得文本聚類簇。HDBSCAN算法是一種基于密度和基于層次的文本聚類算法,它不用人工設(shè)置主題數(shù)目,只用設(shè)置最小生成聚類集合的大小,算法可以自動推薦最優(yōu)的聚類結(jié)果,同時為類簇中的每個文本分配主題標(biāo)簽。

        本文使用c-TF-IDF算法挖掘聚類簇中的重要主題詞。c-TF-IDF算法是從TF-IDF算法中衍生出的基于聚類集合的TF-IDF方法,該方法應(yīng)用于多個聚類集合,將每個集合的所有文檔合并為一個文檔。然后,針對每個聚類簇i,提取單詞的頻率t,除以單詞總數(shù)w。接著將所有類別m中未合并的文檔總數(shù)除以所有聚類簇i的單詞頻率總和。c-TF-IDF可以表示為公式(1):

        通過公式(1)計(jì)算文本類簇中詞匯對類簇的重要程度,選擇最重要的詞匯作為該類簇的主題詞,完成主題抽取。

        (4)研究主題向量構(gòu)建與相似度計(jì)算

        BERT模型基于句子級別的語料進(jìn)行訓(xùn)練,在使用時接受1~2句話作為輸入。為了能夠得到完整的主題向量化表示,本文將每個主題包含的主題詞進(jìn)行拼接,按照特定的格式輸入到BERT模型中,以得到主題向量。

        獲得主題的向量化表示后,本文使用點(diǎn)積余弦相似度計(jì)算不同主題之間的相似度。余弦相似度通過計(jì)算兩個向量之間的夾角大小來測度向量相似性,余弦相似度值越接近1,說明兩主題相似性越高,如公式(2)所示:

        公式(2)中,θ代表向量夾角,n代表向量維度,Ai代表向量A中第i個值,Bi代表向量B中第i個值。

        本文通過計(jì)算不同時間窗口下的子主題相似度來獲得學(xué)科領(lǐng)域的所有父主題,過程如下:以時間窗口第一年為初始年份,該年下各主題為初始主題,計(jì)算初始主題與其他年份下各子主題的相似度,獲得初始主題與其他年份主題的相似度列表。接著對相似度列表進(jìn)行篩選,相似度值最高且高于某一閾值的主題可以劃分為同一主題。完成所有年份的計(jì)算后,同一類型的子主題集合組成同一父主題。如果初始年份往后各年中存在子主題不屬于之前劃分的父主題,則以該主題為新的初始點(diǎn),重復(fù)上述過程,獲得新的父主題。所有的父主題構(gòu)成了學(xué)科領(lǐng)域主題集合。

        (5)前沿研究主題識別指標(biāo)

        在完成學(xué)科領(lǐng)域所有主題識別的基礎(chǔ)上,本文參考已有研究對主題新穎度指標(biāo)進(jìn)行改進(jìn),并結(jié)合本文提出的相關(guān)文獻(xiàn)指數(shù)、主題發(fā)展態(tài)勢指標(biāo)以衡量主題的前沿性。

        ① 新穎度

        主題新穎度指標(biāo)主要用于探測學(xué)科內(nèi)某主題的新穎程度。馮佳等[3]采用“某主題的平均發(fā)文時間”來計(jì)算主題新穎度,時間距今越近,主題新穎度越高??紤]到本文使用的領(lǐng)域主題抽取方法,本文將前文提到的時間窗口按照時間順序切分為兩個時期,將學(xué)科內(nèi)某個父主題下子主題首次出現(xiàn)的年份作為該父主題的出現(xiàn)年份,以出現(xiàn)年份所屬的時期來判斷主題新穎度,時期越早,該主題新穎度越低;時期越晚,該主題新穎度越高。

        ②相關(guān)文獻(xiàn)指數(shù)

        領(lǐng)域內(nèi)某主題是否擁有較高的研究熱度,可以通過關(guān)注該主題的研究者數(shù)量或其他類似指標(biāo)進(jìn)行測度。曾海嬌等[21]統(tǒng)計(jì)研究主題的作者數(shù)量來衡量主題的受關(guān)注度。本文在使用HDBSCAN算法在每個時間窗口下進(jìn)行文本聚類時,每個文本已經(jīng)被分配主題標(biāo)簽,這些文本可以被視為與子主題相關(guān)的文本。因此,本文采用相關(guān)文獻(xiàn)指數(shù)來表征主題的研究熱度??梢岳门c主題相關(guān)的文本數(shù)量與對應(yīng)年份下平均主題相關(guān)文本量的比值來表示主題的相關(guān)文獻(xiàn)指數(shù):

        公式(3)中θj代表子主題j的相關(guān)文獻(xiàn)指數(shù)值,也即父主題在時間窗口t下的相關(guān)文獻(xiàn)指數(shù);代表時間窗口t下平均主題相關(guān)文本量,Ct為t年的相關(guān)文本總數(shù),n為t年的主題數(shù);dj代表主題j的相關(guān)文獻(xiàn)數(shù)量。

        在同一年份中,相關(guān)文獻(xiàn)指數(shù)的標(biāo)準(zhǔn)值為1,如果主題相關(guān)文獻(xiàn)指數(shù)大于標(biāo)準(zhǔn)值,表示該主題受到關(guān)注較多,是熱門主題;如果主題相關(guān)文獻(xiàn)指數(shù)小于標(biāo)準(zhǔn)值,表示該主題受到關(guān)注較少,是冷門主題。

        ③主題發(fā)展態(tài)勢指標(biāo)

        本文認(rèn)為識別前沿主題,要把握前沿主題的發(fā)展趨勢,直觀了解學(xué)科領(lǐng)域中研究主題的發(fā)展過程、規(guī)律和態(tài)勢。因此本文提出“主題發(fā)展態(tài)勢指標(biāo)”來衡量主題的前沿發(fā)展態(tài)勢。本文首先計(jì)算父主題在不同時間窗口上的相關(guān)文獻(xiàn)指數(shù)。然后將時間窗口t上該主題的相關(guān)文獻(xiàn)指數(shù)與前一個時間窗口t-1的相關(guān)文獻(xiàn)指數(shù)相加取平均值,將該平均值作為時間窗口的主題發(fā)展指數(shù),并將當(dāng)前時間窗口t的相關(guān)文獻(xiàn)指數(shù)更新為平均值,以表示該主題隨著時間推移的發(fā)展。主題發(fā)展指數(shù)計(jì)算如公式(4):

        (6)前沿研究主題識別

        根據(jù)前文所述前沿指標(biāo)計(jì)算結(jié)果的不同,本文按照圖(2)所示的識別邏輯,將領(lǐng)域前沿研究主題分為三類:

        ①潛在前沿研究主題

        該類研究主題具有較高的主題新穎度,且最新相關(guān)文獻(xiàn)指數(shù)高于標(biāo)準(zhǔn)值,同時主題發(fā)展呈明顯上升趨勢。這表明此類主題是近期出現(xiàn)的研究主題,且逐漸受到了科研工作者的關(guān)注和重視,快速擁有了較高的研究熱度。本文將該類主題定義為“潛在前沿研究主題”。

        ②熱門前沿研究主題

        該類研究主題不一定具有較高的主題新穎度,但自出現(xiàn)起其相關(guān)文獻(xiàn)指數(shù)就維持在較高的水平,且主題發(fā)展沒有明顯下降趨勢。這表明此類主題一直擁有較高的研究熱度,且暫時沒有下降的趨勢。本文將該類主題定義為“熱門前沿研究主題”。

        ③衰退前沿研究主題

        該類研究主題新穎度較低,且在剛出現(xiàn)時擁有較高的初始相關(guān)文獻(xiàn)指數(shù),隨著時間的發(fā)展該類主題相關(guān)文獻(xiàn)指數(shù)逐年下降,最新相關(guān)文獻(xiàn)指數(shù)低于標(biāo)準(zhǔn)值,主題發(fā)展呈明顯下降趨勢。這表明該主題研究熱度已經(jīng)有較長的研究年限,研究內(nèi)容已無法體現(xiàn)學(xué)科領(lǐng)域的前沿知識。本文將該類主題定義為“衰退前沿研究主題”。

        3 實(shí)證研究

        3.1 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)環(huán)境如表1所示。

        表1 實(shí)驗(yàn)環(huán)境與配置

        3.2 數(shù)據(jù)預(yù)處理

        本文以農(nóng)業(yè)領(lǐng)域?yàn)槔龑陬A(yù)訓(xùn)練模型的前沿研究主題識別方法進(jìn)行實(shí)證。選取中國知網(wǎng)數(shù)據(jù)庫收集農(nóng)業(yè)領(lǐng)域相關(guān)期刊論文的標(biāo)題、發(fā)表年份和摘要數(shù)據(jù),共57301條,時間跨度為2008-2018年。對上述數(shù)據(jù)按發(fā)表年份進(jìn)行時間窗口切片,每個時間窗口下的摘要數(shù)據(jù)進(jìn)行分詞、去除停用詞。

        3.3 研究主題抽取

        在自然語言處理任務(wù)中,不存在一個在所有可能的NLP任務(wù)上都表現(xiàn)出色的通用模型。本文選擇在語義相似度計(jì)算、聚類方面表現(xiàn)良好的基于BERT的語言模型Sentence-Transformers,并選擇支持中文文本句嵌入構(gòu)建的模型“distiluse-base-multilingual-cased-v1”進(jìn)行文本句嵌入的構(gòu)建。

        獲取到文本的句嵌入表征結(jié)果后,使用HDBSCAN算法進(jìn)行文檔聚類,以尋找到文本集合中的相似文檔集合。本文設(shè)置HDBSCAN算法的相似度量方式為歐式度量,最小聚類大小為30。

        在生成文本聚類集合后,使用c-TF-IDF算法計(jì)算聚類集合中詞匯的重要程度,取前20個詞作為每個類簇的主題詞,如2008年主題2的主題詞為“基因,表達(dá),序列,仔豬,擴(kuò)增,引物,蛋白,病毒,遺傳,克隆,載體,基因組,斷奶,疫苗,檢測,片段,重組,質(zhì)粒,氨基酸,抗體”。從主題詞可以分析出該主題研究內(nèi)容為“基因技術(shù)與牲畜養(yǎng)殖應(yīng)用”。值得注意的是,在文本聚類和主題抽取結(jié)果中,主題標(biāo)簽為“-1”的主題應(yīng)該被排除,因?yàn)樵撝黝}表示的聚類結(jié)果被聚類模型視為“噪聲”,其中摻雜了很多未被識別的主題,很難被人解讀。

        3.4 不同時間窗口間主題相似度計(jì)算

        完成文本聚類集合的主題詞抽取后,本文使用BERT預(yù)訓(xùn)練模型生成每個主題的主題向量,并計(jì)算不同時間窗口下兩兩主題之間的相似度。本文在設(shè)置相似度閾值的前提下,為了提升不同主題之間相似度與閾值差異的顯著性,利用公式(5)來計(jì)算某一個時間窗口下某一主題與另一時間窗口下所有主題相似度與閾值差異的顯著性指標(biāo):

        通過以上過程,當(dāng)主題間相似度值為最大且大于閾值時,顯著性指標(biāo)為1,前文所述“相似度值最高且高于某一閾值的主題”可以變換為尋找顯著性指標(biāo)值為1的主題。

        本文將相似度閾值設(shè)置為0.97,計(jì)算不同年份下不同主題間的相似度顯著性值,將顯著性指標(biāo)為1的主題劃分為學(xué)科領(lǐng)域內(nèi)的同一個主題。圖3展示了2008年主題與2009年主題之間相似度顯著性指標(biāo)熱力圖,圖中坐標(biāo)軸以“年份”+“主題標(biāo)簽”命名。

        圖3 期刊論文主題相似度計(jì)算結(jié)果(部分)

        根據(jù)相似度顯著性指標(biāo)計(jì)算結(jié)果,本文對所有兩兩主題之間顯著性指標(biāo)為1的主題進(jìn)行統(tǒng)計(jì),總結(jié)得到農(nóng)業(yè)領(lǐng)域期刊論文數(shù)據(jù)2008-2018年的領(lǐng)域主題共15個,如表2所示。

        表2 農(nóng)業(yè)領(lǐng)域科學(xué)論文研究主題(2008-2018年)

        3.5 前沿主題識別指標(biāo)計(jì)算

        通過上一小節(jié)的領(lǐng)域主題抽取結(jié)果,結(jié)合每個主題在不同年份的相關(guān)文獻(xiàn)和相關(guān)文獻(xiàn)指數(shù)計(jì)算方法,得到每個領(lǐng)域主題在不同年份的相關(guān)文獻(xiàn)指數(shù)如表3所示。表中每個主題第一個非零相關(guān)文獻(xiàn)指數(shù)對應(yīng)的年份為該主題第一次出現(xiàn)的年份。

        表3 期刊論文主題相關(guān)文獻(xiàn)指數(shù)表

        根據(jù)上表計(jì)算得到的領(lǐng)域主題相關(guān)文獻(xiàn)指數(shù),結(jié)合主題發(fā)展態(tài)勢指標(biāo),計(jì)算出每個領(lǐng)域主題的主題發(fā)展態(tài)勢指數(shù)如表4所示。

        表4 期刊論文主題發(fā)展態(tài)勢指數(shù)表

        根據(jù)主題發(fā)展態(tài)勢指數(shù)表,繪制領(lǐng)域內(nèi)所有主題的發(fā)展態(tài)勢折線圖,如圖4所示。

        圖4 科學(xué)論文主題發(fā)展趨勢

        3.6 前沿研究主題識別結(jié)果分析

        通過對農(nóng)業(yè)領(lǐng)域期刊論文的文檔內(nèi)容進(jìn)行主題識別,進(jìn)而根據(jù)前文計(jì)算的新穎度、相關(guān)文獻(xiàn)指數(shù)、主題發(fā)展指數(shù),按照圖2給出的識別邏輯,識別出農(nóng)業(yè)領(lǐng)域前沿研究主題。在識別過程中,本文將時間窗口按時間順序進(jìn)行排列,劃分為兩個時期,主題首次出現(xiàn)年份落在前50%時期的標(biāo)記為“新穎度低”,反之則為“新穎度高”;計(jì)算每個主題的主題發(fā)展指數(shù)擬合線性方程,方程斜率大于或等于0表示主題上升或穩(wěn)定型發(fā)展,反之則為衰退型發(fā)展;將初始相關(guān)文獻(xiàn)指數(shù)大于1的主題標(biāo)記為“初始熱門主題”,將近期相關(guān)文獻(xiàn)指數(shù)小于等于1的主題標(biāo)記為“冷門主題”,即該類主題近期研究熱度較低。根據(jù)上述標(biāo)記方法,對農(nóng)業(yè)領(lǐng)域期刊論文主題前沿指標(biāo)進(jìn)行計(jì)算,結(jié)果總結(jié)如表5所示。

        圖2 前沿研究主題劃分思路

        表5 農(nóng)業(yè)領(lǐng)域期刊論文前沿指標(biāo)計(jì)算結(jié)果

        根據(jù)上述結(jié)算結(jié)果,本節(jié)對探測得到的各類前沿研究主題進(jìn)行分析:

        (1)潛在前沿研究主題

        潛在前沿研究主題為主題15,該主題相關(guān)前沿指數(shù)如圖5所示。

        圖5 主題15前沿指標(biāo)

        主題15首次出現(xiàn)年份為2017年,屬于近期階段,新穎度較高。該主題相關(guān)文獻(xiàn)指數(shù)在2018年達(dá)到了1.58,顯著高于標(biāo)準(zhǔn)值,同時該主題一經(jīng)出現(xiàn)便有著顯著的上升趨勢,因此屬于潛在前沿研究主題。

        從研究內(nèi)容看,主題15主要研究內(nèi)容為“草場保護(hù)及防止牧場退化”,這與近年來國家強(qiáng)調(diào)的“綠水青山就是金山銀山”較為符合。在國家大力倡導(dǎo)環(huán)境保護(hù)的情況下,該主題所代表的研究方向成為了一個潛在研究主題,具有良好的研究前景。

        (2)熱門前沿研究主題

        熱門前沿研究主題為主題2和主題12。以主題2為例,該主題相關(guān)前沿指數(shù)如圖6所示。

        圖6 主題2前沿指標(biāo)

        主題2新穎度較低,但除了2010年以外,該主題相關(guān)文獻(xiàn)指數(shù)始終顯著高于標(biāo)準(zhǔn)值,同時主題發(fā)展態(tài)勢也呈上升趨勢,因此將該主題劃分為“熱門前沿研究主題”。

        主題2的主要研究內(nèi)容為“基因技術(shù)應(yīng)用于牲畜相關(guān)研究”。從研究內(nèi)容看在農(nóng)業(yè)及生命科學(xué)領(lǐng)域,基于基因技術(shù)的研究始終是研究者的工作重點(diǎn),該主題將基因技術(shù)應(yīng)用于牲畜,進(jìn)行牲畜性狀的選擇,以及利用牲畜生產(chǎn)制造各種貴重藥物,屬于高科技研究,同時具有極高的經(jīng)濟(jì)意義,所以研究熱度經(jīng)久不衰。

        (3)衰退前沿研究主題

        衰退前沿研究主題為主題6和主題8。以主題8為例,該主題前沿指數(shù)如圖7所示。

        圖7 主題8前沿指標(biāo)

        該主題首次出現(xiàn)為2008年,新穎度很低,初始相關(guān)文獻(xiàn)指數(shù)處于高水平,但隨即逐年下降,主題發(fā)展態(tài)勢也呈明顯下降趨勢,因此為“衰退前沿研究主題”。該主題的研究內(nèi)容為“植株的栽培與育苗研究”。在農(nóng)業(yè)領(lǐng)域,對于植物植株的栽培、扦插技術(shù)有著較長的研究年月,相關(guān)研究的難度不高,研究條件也十分成熟,因此已經(jīng)發(fā)展成為成熟的研究主題,其研究熱度逐年下降。

        4 總結(jié)

        圍繞學(xué)科領(lǐng)域前沿研究主題識別這一研究主題,本文首先梳理了現(xiàn)有前沿研究識別方法,然后運(yùn)用預(yù)訓(xùn)練模型、文本聚類技術(shù)、主題挖掘技術(shù)、可視化分析技術(shù)等,構(gòu)建了學(xué)科領(lǐng)域前沿研究主題識別指標(biāo)。通過主題向量構(gòu)建和主題相似度計(jì)算,完成領(lǐng)域主題抽取和前沿研究主題識別,并利用農(nóng)業(yè)領(lǐng)域期刊論文數(shù)據(jù)進(jìn)行實(shí)證研究,識別出潛在前沿研究主題1個、熱門前沿研究主題2個、衰退前沿研究主題2個,結(jié)果表明本文提出的前沿研究主題識別方法具有顯著可行性。

        然而,該方法仍然存在一定不足。首先,本方法使用了基本的中文語言模型進(jìn)行文本句嵌入的構(gòu)建。未來可考慮針對特定任務(wù)使用效果更佳的語言模型,或針對特定領(lǐng)域語料訓(xùn)練自有的預(yù)訓(xùn)練模型。其次,本方法僅使用了論文數(shù)據(jù)作為數(shù)據(jù)源,今后可考慮綜合多種數(shù)據(jù)源進(jìn)行前沿研究主題識別。最后,由于缺乏統(tǒng)一的前沿研究主題識別的評價指標(biāo)體系,本文提出的前沿研究主題識別方法在結(jié)果評價方面有所欠缺,未來研究中需要進(jìn)一步探討相關(guān)評價方法。

        猜你喜歡
        年份聚類領(lǐng)域
        特殊的一年
        領(lǐng)域·對峙
        青年生活(2019年23期)2019-09-10 12:55:43
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        什么是閏年?
        一樣的年份
        基于改進(jìn)的遺傳算法的模糊聚類算法
        新常態(tài)下推動多層次多領(lǐng)域依法治理初探
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        更正
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        少妇高潮太爽了免费网站| 91精品国产91久久久无码95| 丰满人妻AV无码一区二区三区| 国产午夜精品综合久久久| 亚洲综合精品中文字幕| 久久久无码精品亚洲日韩按摩| 久久久精品免费观看国产| 日韩中文字幕网站| 好看的中文字幕中文在线| 国产亚洲欧洲aⅴ综合一区| 又爽又黄又无遮挡的激情视频| 亚洲一级电影在线观看| 青青草成人免费播放视频| 丰满人妻熟妇乱又仑精品| 日本一卡2卡3卡四卡精品网站| 国产精品天堂avav在线| 久久亚洲宅男天堂网址| 在线精品亚洲一区二区动态图| 欧美肥胖老妇做爰videos| 国产精品网站夜色| 蜜桃视频永久免费在线观看 | 亚洲国产成人va在线观看天堂| 午夜不卡亚洲视频| 91精品国产九色综合久久香蕉| 国产超碰人人做人人爽av大片| 亚洲丁香五月激情综合| 亚洲中文字幕av一区二区三区人| 美艳善良的丝袜高跟美腿 | 性色av 一区二区三区| 久99久精品免费视频热77| 国产亚洲精品一区在线| 久久久久亚洲av无码麻豆| 澳门精品无码一区二区三区| 青青草视频在线免费观看91| 国产欧美在线观看不卡| 亚洲精品综合一区二区三| 超碰观看| 神马影院日本一区二区| 成人爽a毛片在线视频| 亚洲不卡电影| 成熟的女人毛茸茸色视频|