亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA的ESI研究前沿主題發(fā)現(xiàn)研究

        2021-04-01 08:16:41袁潤劉邦國潘穎
        中國集體經(jīng)濟(jì) 2021年1期
        關(guān)鍵詞:研究前沿

        袁潤 劉邦國 潘穎

        摘要:文章利用LDA主題模型對ESI研究前沿進(jìn)行主題發(fā)現(xiàn)研究,將每1期的ESI分類的22個(gè)學(xué)科領(lǐng)域的研究前沿視為1個(gè)文檔,1年6期數(shù)據(jù)共計(jì)合成132個(gè)文檔,再將這些文檔構(gòu)成文檔集,利用R語言貢獻(xiàn)包中的LDA函數(shù)進(jìn)行主題建模,得到“文檔-主題-術(shù)語”矩陣,在此基礎(chǔ)上可視化表征學(xué)科領(lǐng)域的主題及其演變、交叉融合。

        關(guān)鍵詞:研究前沿;主題發(fā)現(xiàn);主題建模;ESI;LDA

        一、引言

        科學(xué)文獻(xiàn)主題發(fā)現(xiàn)是科技情報(bào)分析的基礎(chǔ)。LDA主題模型因其具有對海量異構(gòu)文本數(shù)據(jù)建模的優(yōu)勢,在科學(xué)文獻(xiàn)知識挖掘、科學(xué)研究熱點(diǎn)發(fā)現(xiàn)與新興主題探測、科學(xué)研究主題演化、學(xué)術(shù)評價(jià)等研究方向得到了廣泛的應(yīng)用。關(guān)鵬、王曰芬等研究了最優(yōu)LDA主題數(shù)確定方法,分析了主題抽取的效果;張勇開展了基于詞性與LDA主題模型的文本分類技術(shù)研究,實(shí)驗(yàn)證明了詞性特征提取方法是有效的,具有普適性;李湘東等研究了基于LDA主題模型的圖書網(wǎng)頁書目信息提取方法。

        目前,基于ESI研究前沿的研究主要集中在三個(gè)方面。一是關(guān)于研究前沿的探測,二是關(guān)于研究前沿的解讀,三是關(guān)于研究前沿的學(xué)科分析與服務(wù)。這些研究為我國高校圖書館開展學(xué)科知識服務(wù)提供了強(qiáng)大的理論支撐,特別是在“雙一流”建設(shè)大背景下,ESI備受關(guān)注,深入研究它對學(xué)科知識服務(wù)的價(jià)值具有很強(qiáng)的現(xiàn)實(shí)意義。

        每期發(fā)布的ESI研究前沿都會有較大的變化,本文以1年6期ESI研究前沿為研究對象,對其開展了基于文本挖掘的探索性研究,旨在發(fā)現(xiàn)科學(xué)研究主題,為解析學(xué)科結(jié)構(gòu)、掌握學(xué)科發(fā)展脈絡(luò)、預(yù)測技術(shù)發(fā)展趨勢等學(xué)術(shù)情報(bào)分析奠定基礎(chǔ)。

        二、ESI研究前沿的主題模型分析

        主題模型是一種以非監(jiān)督學(xué)習(xí)的方式對文本集的隱含語義結(jié)構(gòu)進(jìn)行聚類的統(tǒng)計(jì)模型,廣泛應(yīng)用在語義分析和文本挖掘等研究領(lǐng)域。本文將每1期的每1個(gè)學(xué)科領(lǐng)域的研究前沿視為一個(gè)文檔,利用LDA算法生成“文檔-主題”“主題-術(shù)語”和“文檔-主題-術(shù)語”三種矩陣形式的結(jié)果,在此基礎(chǔ)上抽取領(lǐng)域?qū)W科主題。LDA主題建模需要預(yù)先給定主題的數(shù)量,需要不斷進(jìn)行嘗試才能尋找到最佳主題數(shù)量,存在一定的偶然性,因?yàn)镋SI設(shè)置了22個(gè)學(xué)科領(lǐng)域,所以有理由相信每個(gè)學(xué)科領(lǐng)域至少包含1個(gè)主題。利用R語言中topicmodels工具包中的LDA函數(shù)創(chuàng)建22個(gè)主題模型后首先得到主題-詞頻矩陣,如圖1所示。

        接著,將每個(gè)主題與22個(gè)學(xué)科相對應(yīng),結(jié)果如表1所示。

        從表1可見,有20個(gè)主題與學(xué)科領(lǐng)域一一對應(yīng),所以表明LDA對于ESI研究前沿的分類效果較好。而未能對應(yīng)學(xué)科的主題有2個(gè), 其中,9號主題是未能對應(yīng)到學(xué)科,而11號主題對應(yīng)到生物學(xué)和多學(xué)科2個(gè)領(lǐng)域。

        以術(shù)語cancer為例,發(fā)現(xiàn)至少有107個(gè)文檔中包含了該術(shù)語,涉及到14個(gè)主題和多個(gè)學(xué)科,該術(shù)語主要分布于臨床醫(yī)學(xué)和化學(xué)兩個(gè)學(xué)科領(lǐng)域。如此可以探索術(shù)語(term)在文檔(document)、主題(topic)、學(xué)科(field)中的分布情況,并從中發(fā)現(xiàn)有價(jià)值的學(xué)術(shù)信息。另外,2019年5月的數(shù)據(jù)出現(xiàn)了突變,從20號主題變成5號主題,這些信息值得深入研究,也需要得到領(lǐng)域?qū)<业慕庾x。

        三、ESI研究前沿的主題發(fā)現(xiàn)

        (一)穩(wěn)定的學(xué)科及主題的發(fā)現(xiàn)

        1. 農(nóng)業(yè)科學(xué)領(lǐng)域穩(wěn)定的研究對象發(fā)現(xiàn)

        以農(nóng)業(yè)科學(xué)為例,圖2展示了農(nóng)業(yè)科學(xué)領(lǐng)域的主題術(shù)語演變級及出現(xiàn)頻次,明顯可以看出“水”、“土壤”、“小麥”、“大米”是農(nóng)業(yè)科學(xué)學(xué)科穩(wěn)定的研究對象,體現(xiàn)了作為人類賴以生存基礎(chǔ)的農(nóng)作物、農(nóng)作物的生長環(huán)境在農(nóng)業(yè)科學(xué)領(lǐng)域的重要位置。并且,很直觀地看出,“土壤”(soil)“食物”(food)兩個(gè)術(shù)語的詞頻遠(yuǎn)遠(yuǎn)大于其它術(shù)語,是該學(xué)科領(lǐng)域的核心主題。

        2. 穩(wěn)定學(xué)科中的新增主題

        穩(wěn)定的學(xué)科也會存在一絲波瀾,這些波瀾就是每一期涌現(xiàn)出的新的研究主題,比如2019年第3期、第5期相繼出現(xiàn)研究土壤微生物在生態(tài)化學(xué)計(jì)量、植物群落、土壤性質(zhì)變化等方面的文章。2019年第5期、第7期研究前沿新增了電化學(xué)法、電化學(xué)傳感器用于鉛、鎘等重金屬的測定研究。

        3.社會因素對穩(wěn)定學(xué)科的影響

        結(jié)合實(shí)際情況,可以推斷出部分穩(wěn)定學(xué)科中新增的主題與當(dāng)社會出現(xiàn)新問題有很大的相關(guān)性。比如2018年2月5日,伊朗吉蘭省發(fā)生H5N6亞型高致病性禽流感,在2019年第3期、第5期的研究前沿中就出現(xiàn)對特定地區(qū)食品健康風(fēng)險(xiǎn)評估研究熱點(diǎn),比如伊朗市場食品樣品中苯的風(fēng)險(xiǎn)評價(jià),伊朗水稻砷鉛含量的系統(tǒng)評價(jià)及致癌風(fēng)險(xiǎn)評價(jià)。這種影響存在一定的滯后性。

        實(shí)際研究中發(fā)現(xiàn),研究前沿中存在穩(wěn)定研究主題的學(xué)科不在少數(shù),包括計(jì)算機(jī)科學(xué)、數(shù)學(xué)、微生物科學(xué)、植物科學(xué)等,這種穩(wěn)定學(xué)科的存在和發(fā)現(xiàn),有助于學(xué)者、機(jī)構(gòu)對研究前沿的發(fā)展進(jìn)行梳理、解讀和預(yù)測,存在進(jìn)一步深入研究的價(jià)值。

        (二)學(xué)科主題變化及交叉融合的發(fā)現(xiàn)

        如果某術(shù)語(term)在多個(gè)學(xué)科領(lǐng)域出現(xiàn),本文認(rèn)為這些術(shù)語為交叉學(xué)科主題。根據(jù)本次研究得出的交叉主題術(shù)語結(jié)合文獻(xiàn)的閱讀,分析出了如下交叉融合的實(shí)例:食品學(xué)科與光學(xué)學(xué)科的交叉產(chǎn)生了高光譜成像在食品質(zhì)量分析、分類、鑒別等方面的研究主題;計(jì)算科學(xué)的參與,產(chǎn)生了模型在智能預(yù)測、估算方面的研究,比如混合進(jìn)化模糊智能模型在懸沙濃度預(yù)測的應(yīng)用、非調(diào)諧數(shù)據(jù)模型在土壤溫度智能估算的應(yīng)用。按照這一思路提取的臨床醫(yī)學(xué)與生物學(xué)的交叉主題詞云如圖3所示。

        四、結(jié)論與不足

        本文使用了統(tǒng)計(jì)分析和主題模型的方法對ESI研究前沿進(jìn)行了探索性研究,對研究前沿的探測、解讀和服務(wù)具有一定意義,包括:第一,社會新問題或重要事件的出現(xiàn)以及持續(xù)的時(shí)間,會對新主題的誕生產(chǎn)生一定程度的影響。第二,學(xué)科之間目前已經(jīng)形成了交叉融合的研究模式,包含交叉主題、交叉學(xué)科等,這種交叉融合的模式對學(xué)術(shù)、學(xué)科、機(jī)構(gòu)等的管理有借鑒和參考作用。第三,基于本文的假設(shè),每一個(gè)學(xué)科至少存在一個(gè)最具代表性的主題,實(shí)際利用LDA主題模型進(jìn)行主題發(fā)現(xiàn)也的確驗(yàn)證了這一假設(shè),代表著不同主題雖然存在融合、交叉,但也有自己核心的研究主題。第四,相較于其他文章將著眼點(diǎn)放在主題的突變,本文以農(nóng)業(yè)科學(xué)為例,發(fā)現(xiàn)該學(xué)科研究主題術(shù)語極具穩(wěn)定性,作者稱之為穩(wěn)定的學(xué)科,穩(wěn)定的學(xué)科交易于進(jìn)行前沿的探索、解讀和預(yù)測,這種穩(wěn)定的學(xué)科也通常具有研究環(huán)境相對穩(wěn)定、試驗(yàn)周期長等特征。

        本文尚存在以下局限。首先,主題模型的方法有很多,包括LSA(又稱LSI)、pLSA(又稱pLSI)、LDA、NMF等,由于本文主要目的是對ESI研究前沿進(jìn)行探索性研究,僅使用了LDA一種主題模型,并未對不同主題模型之間的特點(diǎn)和不足進(jìn)行對比分析。其次,本文是一種對ESI研究前沿較為粗粒度的研究,描述了一種或多種學(xué)科的外貌特征,包括學(xué)科交叉程度、學(xué)科發(fā)展穩(wěn)定性、學(xué)科主題演變情況、主題發(fā)現(xiàn)相關(guān)影響因素等,想要獲取更加縱向的深入的主題分析,需要在本文基礎(chǔ)上進(jìn)一步縮小范圍,縮小范圍進(jìn)行細(xì)粒度的研究分析。

        參考文獻(xiàn):

        [1]關(guān)鵬,王曰芬,傅柱.不同語料下基于IDA主題模型的科學(xué)文獻(xiàn)主題抽取效果分析[J].圖書情報(bào)工作,2016(02):112-121.

        [2]關(guān)鵬,王日芬.科技情報(bào)分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2016,32(09):42-50.

        [3]張勇.基于詞性與LDA主題模型的文本分類技術(shù)研究[D].合肥:安徽大學(xué),2016.

        [4]李湘東,霍亞勇,張嬌.基于LDA主題模型的圖書網(wǎng)頁書目信息提取研究[J].情報(bào)科學(xué),2016,34(01):34-37.

        [5]李牧南.基于關(guān)聯(lián)規(guī)則挖掘競爭情報(bào)研究前沿分析[J].情報(bào)雜志,2016,35(03):54-60.

        [6]李小濤,金心怡,李艷.基于ESI高被引論文的醫(yī)學(xué)信息學(xué)研究前沿可視化分析[J].現(xiàn)代情報(bào),2018,38(12):122-127.

        [7]孫震,冷伏海.一種基于知識元共現(xiàn)的ESI研究前沿 知識演進(jìn)分析方法[J].情報(bào)學(xué)報(bào),2018,37(11):23-41.

        [8]王小梅,鄧啟平,李國鵬,等.ESI研究前沿的科學(xué)圖譜及在納米領(lǐng)域的應(yīng)用[J].圖書情報(bào)工作,2017,61(12):106-112.

        [9]錢萬強(qiáng),張峰,江海燕,等.世界前沿科學(xué)發(fā)展趨勢研究:基于ESI數(shù)據(jù)庫和十大突破分析[J].中國科學(xué)基金,2017(01):66-71.

        [10]邊文越,王海名,邢穎,等.基于ESI研究前沿的納米領(lǐng)域研究分析[J].中國科學(xué)院院刊,2017,32(10):1150-1158.

        [11]周群,韓濤,左文革,等.基于學(xué)科前沿性視角的科研機(jī)構(gòu)評測研究與實(shí)證[J].現(xiàn)代情報(bào),2018,38(04):65-70+76.

        [12]董彥邦,劉莉.全球?qū)W科排名與ESI研究前沿的相關(guān)性研究——以計(jì)算機(jī)學(xué)科為例[J].情報(bào)雜志,2019,38(05):81-86.

        [13]周麗英,冷伏海,左文革.引文耦合增強(qiáng)的共詞分析方法改進(jìn)研究——以ESI農(nóng)業(yè)科學(xué)研究主題劃分為例[J].情報(bào)理論與實(shí)踐,2015,38(11):120-125.

        *本文系國家社會科學(xué)基金項(xiàng)目“圖書館知識發(fā)現(xiàn)服務(wù)的功能定位和建設(shè)策略研究”(項(xiàng)目編號:14BTQ018)研究成果之一。項(xiàng)目負(fù)責(zé)人:袁潤。

        (作者單位:袁潤、潘穎,江蘇大學(xué)圖書館;劉邦國,江蘇大學(xué)科技信息研究所)

        猜你喜歡
        研究前沿
        我國Altmetrics研究進(jìn)展與可視化分析
        離岸IT O研究現(xiàn)狀及趨勢分析
        國外圖書館學(xué)科服務(wù)研究進(jìn)展與前沿趨勢分析:基于科學(xué)知識圖譜的途徑
        區(qū)域發(fā)展研究現(xiàn)狀與前沿的可視化分析
        中國市場(2017年14期)2017-06-02 13:02:45
        全球價(jià)值鏈的概念性理論框架:一個(gè)國際分工的視角
        國內(nèi)人文社會科學(xué)視野下大數(shù)據(jù)研究力量布局與研究前沿識別
        國際石墨烯領(lǐng)域研究前沿和熱點(diǎn)的可視化分析
        卷宗(2017年1期)2017-03-17 09:21:15
        恐怖主義研究熱點(diǎn)與前沿可視化分析
        提高化學(xué)專業(yè)學(xué)生有機(jī)化學(xué)學(xué)習(xí)興趣的幾點(diǎn)體會
        基于CSSCI(2003—2013)的我國非物質(zhì)文化遺產(chǎn)知識圖譜分析
        精品无人码麻豆乱码1区2区| 亚洲一区日本一区二区| 男女视频一区二区三区在线观看| 国产亚洲欧洲aⅴ综合一区| a级毛片成人网站免费看| 亚洲中文av一区二区三区| 国产亚洲精品视频在线| 国产自拍视频免费在线| 久久午夜夜伦鲁鲁片免费无码| 国产成人国产在线观看| 在线亚洲精品免费视频| 亚洲中国精品精华液| 三级在线看中文字幕完整版| 免费二级毛片在线播放| 国产91久久精品成人看网站 | 国产麻豆一区二区三区在线播放| 极品粉嫩小仙女高潮喷水网站| 亚洲精品午夜无码专区| 精品国产国产AV一区二区| 一本之道加勒比在线观看| 亚洲av丰满熟妇在线播放| 亚洲乱码av中文一区二区| 欧美日韩国产另类在线观看| 久久成人精品国产免费网站| 久久久久亚洲av综合波多野结衣| 最近免费中文字幕| 日本国产一区二区三区在线观看| 亚洲精品国产亚洲av| 国产无吗一区二区三区在线欢| 久久国产自偷自免费一区100| 一区二区三区国产亚洲网站| 欧美高清视频手机在在线| 亚洲日韩精品欧美一区二区| 亚洲五月七月丁香缴情| 婚外情长久的相处之道| 在线看片免费人成视频久网下载| 人妻无码中文专区久久综合| 宅男天堂亚洲一区二区三区| 亚洲av无码专区在线观看下载 | 国产午夜福利久久精品| 欧美第五页|