亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA的工科科研主題識別與可視化研究

        2020-09-21 06:51:14陸陽琪
        江蘇科技信息 2020年22期
        關(guān)鍵詞:利用圖書館模型

        陸陽琪

        (南京工程學(xué)院圖書館,江蘇南京 211167)

        0 引言

        為了推動工程教育改革的創(chuàng)新,2017 年教育部正式啟動了“新工科”計劃,并就新工科的內(nèi)涵特征、發(fā)展路徑、建設(shè)指南等方面的內(nèi)容形成了新工科建設(shè)的“三部曲”——復(fù)旦共識、天大行動和北京指南。在新工科不斷發(fā)展建設(shè)的背景下,高校圖書館作為學(xué)校教學(xué)和科研服務(wù)的保障支撐部門要積極應(yīng)對,以滿足高校新工科建設(shè)的要求。本文嘗試以南京工程學(xué)院工科類科研文獻(xiàn)為數(shù)據(jù)源,利用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型提取研究主題,幫助科研人員快速了解研究領(lǐng)域的熱點主題,為圖書館助力高??蒲泄ぷ?,完善精準(zhǔn)知識服務(wù)探索新的路徑。

        1 相關(guān)研究

        從科研成果中挖掘研究熱點和主題一直都是圖書情報領(lǐng)域的重要研究方向,研究者們利用各種方法和工具對此進(jìn)行研究,主要有共詞分析法、詞頻分析法、共被引分析法、內(nèi)容分析法、社會網(wǎng)絡(luò)、LDA 模型等。趙蓉英等[1]利用CiteSpaceⅡ?qū)ξ墨I(xiàn)進(jìn)行共引分析和聚類分析,揭示了文獻(xiàn)計量學(xué)的研究熱點和發(fā)展趨勢。李亞員[2]利用研究文獻(xiàn)的高頻關(guān)鍵詞進(jìn)行共詞分析,梳理了我國慕課研究現(xiàn)狀與熱點??缕降龋?]利用社會網(wǎng)絡(luò)分析方法,借助UCINET 等工具對國外信息管理相關(guān)文獻(xiàn)的關(guān)鍵詞進(jìn)行統(tǒng)計和聚類分析,挖掘研究熱點。李永忠等[4]利用LDA 模型抽樣獲得電子政務(wù)相關(guān)文獻(xiàn)的主題,總結(jié)分析了目前國內(nèi)電子商務(wù)研究的熱點。吳查科等[5]利用LDA 方法建立了國內(nèi)圖書館學(xué)研究的主題模型,挖掘圖書館學(xué)領(lǐng)域主題及其演變情況。

        對于高校圖書館而言,如何從海量動態(tài)的文獻(xiàn)數(shù)據(jù)中精準(zhǔn)獲取信息,幫助科研人員了解研究領(lǐng)域的發(fā)展趨勢和前沿?zé)狳c,找出創(chuàng)新突破點已成為高校圖書館精準(zhǔn)知識服務(wù)面臨的一項挑戰(zhàn)[6]。LDA 是在機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型,它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA 在文本主題識別、文本分類以及文本相似度計算等方面有著良好的效果,因此廣泛被研究者們應(yīng)用到各學(xué)科領(lǐng)域,如計算機(jī)領(lǐng)域、圖書情報學(xué)領(lǐng)域、經(jīng)濟(jì)學(xué)領(lǐng)域等等[7-9]。但LDA模型目前在高校圖書館服務(wù)方面的實踐探索還較少,因此,本文利用LDA 模型分析了南京工程學(xué)院近10 年工科科研成果的研究熱點,探索高校圖書館利用數(shù)據(jù)科學(xué)技術(shù)更好地服務(wù)科研的可能性。

        2 研究方法

        本文以中國知網(wǎng)期刊全文數(shù)據(jù)庫收錄的文獻(xiàn)為數(shù)據(jù)來源,以作者單位=“南京工程學(xué)院”為檢索表達(dá)式,匹配方式為“模糊”,并將文獻(xiàn)發(fā)表時間限定為2010—2019 年,共檢索到8 783 條結(jié)果。本研究主要基于工科類科研成果,因此進(jìn)一步將作者單位限定在電力工程學(xué)院、機(jī)械工程學(xué)院、材料科學(xué)與工程學(xué)院、能源與動力工程學(xué)院等工科院系。同時,人工核查剔除字段不全和不相關(guān)的文獻(xiàn),得到有效數(shù)據(jù)4 437條。本文提取4 437 條篇目數(shù)據(jù)中的摘要字段,建立語料庫。檢索時間為2020年5月19日。

        在自然語言處理工程中,文本預(yù)處理通常包括分詞、文本清洗、標(biāo)準(zhǔn)化、特征提取等步驟。對于中文分詞,jieba 分詞是目前最常用的分詞系統(tǒng),本文利用Python 程序安裝jieba 庫,對每篇文獻(xiàn)的摘要字段進(jìn)行分詞處理,文獻(xiàn)摘要中可能會包含一些常見的、與主題無關(guān)的詞語和特殊符號,因此需要進(jìn)行停用詞和特殊符號處理,接著利用scikit-learn 向量化工具CounterVectorizer 對文本特征進(jìn)行處理,以上文本處理完成后即可獲得LDA主題建模的訓(xùn)練樣本。

        文本預(yù)處理完成后,利用python的sklearn庫來實現(xiàn)南京工程學(xué)院近10年工科科研成果的LDA主題建模。構(gòu)建LDA模型首先需要確定一個合適的主題數(shù)量,本文選用困惑度(Perplexity)指標(biāo)作為確定最佳主題數(shù)量的參考指標(biāo),經(jīng)過計算發(fā)現(xiàn)當(dāng)主題數(shù)為15時,困惑度最小,因此確定主題數(shù)為15。

        3 結(jié)果與分析

        根據(jù)LDA 模型的初步訓(xùn)練結(jié)果,獲得15 個主題的詞項分布和4 437篇文獻(xiàn)的主題分布。主題詞項分布如表1 所示,由于篇幅所限,每個主題展示10 個與主題相關(guān)的高頻詞。本文對15個主題的概率詞項進(jìn)行推理,對每個主題名稱進(jìn)行命名,例如從主題14中的“模擬、有限元、分布、數(shù)值、計算”推理出該主題關(guān)于“數(shù)值分析”,說明LDA模型的提取效果較好。

        根據(jù)文獻(xiàn)主題分布結(jié)果,對每篇文檔的主題概率排序,選擇每篇文檔的最大概率進(jìn)行主題歸類,每篇文檔都被賦予最能代表該文檔的主題詞,表2 為每個主題對應(yīng)的文獻(xiàn)篇數(shù)的統(tǒng)計及占比情況,從表中可以看出“教育教學(xué)”“系統(tǒng)設(shè)計”和“檢測算法”是占比前三位的主題詞,表明在南京工程學(xué)院工科專業(yè)中高等教育與教學(xué)以及自動化系統(tǒng)和算法的應(yīng)用較為普遍。

        為了更好地解釋研究主題,更直觀地了解研究主題如何相互關(guān)聯(lián),本文利用pyLDAvis 庫創(chuàng)建了生成LDA模型的交互式可視化結(jié)果,如圖1所示。LDA的可視化結(jié)果包括兩個部分,左側(cè)展示了主題模型的完整視圖,圓圈的大小代表了每個研究主題的文獻(xiàn)數(shù)量,并按照文獻(xiàn)數(shù)量的遞減順序?qū)ρ芯恐黝}進(jìn)行排序,圖1 中的研究主題1 即為“教育教學(xué)”。圓心之間的距離表示研究主題之間的相互關(guān)系,即兩個圓心間的距離越近,兩個研究主題間的相關(guān)性越高,例如數(shù)值分析在機(jī)器人算法代碼研究中有一定應(yīng)用,因此,主題10“機(jī)器人”和主題14“數(shù)值分析”的圓圈就有重疊。右側(cè)展示的是左側(cè)突出顯示的研究主題中出現(xiàn)的前30 個最相關(guān)單詞的直方圖,比如左側(cè)選中研究主題1“教育教學(xué)”,右側(cè)展示的是與“教育教學(xué)”最相關(guān)的前30 個詞語,如教學(xué)、學(xué)生、學(xué)習(xí)、本科、工程等。

        LDA 的可視化結(jié)果還可以用來探索主題詞之間的關(guān)系,具體來說,當(dāng)右側(cè)的單詞“傳感器”突出顯示時,左側(cè)顯示了它在各個研究主題中分布的情況,如圖2所示。“傳感器”一詞可以在主題2“系統(tǒng)設(shè)計”、主題5“鎂合金”和主題10“機(jī)器人”中找到。

        利用LDA 建模方法,本文確定了南京工程學(xué)院工科學(xué)科近10 年CNKI 收錄的中文期刊論文共15 個研究主題。研究發(fā)現(xiàn),不同的工科學(xué)科,存在一些共性研究主題,比如高等教育、數(shù)據(jù)挖掘等。另外一些研究主題之間有著鮮明的學(xué)科特性,比如電力系統(tǒng)、數(shù)控機(jī)床、繼電保護(hù)、復(fù)合材料等等。實驗表明,LDA建模結(jié)果有助于快速了解教師的研究需求,高校圖書館館員可以利用數(shù)據(jù)科學(xué)技術(shù)更好地為廣大讀者服務(wù)。本文重點關(guān)注工科學(xué)科的研究需求,但LDA建模方法也可以應(yīng)用到解決其他學(xué)科的教學(xué)科研需求甚至是分析圖書館館藏數(shù)據(jù)、用戶數(shù)據(jù)等方面的問題上。

        表1 南京工程學(xué)院近10年工科科研成果主題分布

        表2 主題文獻(xiàn)數(shù)量及占比統(tǒng)計

        4 結(jié)語

        本文利用LDA 模型分析南京工程學(xué)院近10 年CNKI 收錄的工科科研成果的研究熱點,初步探索了圖書館利用數(shù)據(jù)和數(shù)據(jù)科學(xué)技術(shù)服務(wù)科研的可能性,未來數(shù)據(jù)科學(xué)技術(shù)的應(yīng)用還可以延伸到館藏管理、參考咨詢和教學(xué)決策等。

        本研究還存在一些局限。首先,利用中國知網(wǎng)期刊全文數(shù)據(jù)庫來提取教師的科研成果,數(shù)量可能會偏少,因為對于理工類學(xué)科來說,教師可能還有一些成果被SCI、EI 等收錄;其次,由于學(xué)科交融越來越多,一些重疊主題解釋起來比較困難。后續(xù)研究可以進(jìn)一步深入探索基于LDA的圖書館知識服務(wù)。

        圖1 研究主題可視化結(jié)果

        圖2 “傳感器”在多個研究主題上的分布情況

        猜你喜歡
        利用圖書館模型
        一半模型
        利用min{a,b}的積分表示解決一類絕對值不等式
        重要模型『一線三等角』
        利用一半進(jìn)行移多補(bǔ)少
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        利用數(shù)的分解來思考
        Roommate is necessary when far away from home
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        飛躍圖書館
        3D打印中的模型分割與打包
        精品亚洲人伦一区二区三区| 免费国产裸体美女视频全黄| 精品人妻少妇一区二区不卡| 四虎成人精品国产永久免费| 美女被内射很爽的视频网站| 久久亚洲精品国产亚洲老地址| 老师脱了内裤让我进去| 伊香蕉大综综综合久久| 国产精品高清一区二区三区人妖| 国产精华液一区二区三区| 日韩吃奶摸下aa片免费观看| 99热精品国产三级在线观看| 手机在线看片在线日韩av| 国产亚洲成人av一区| 18女下面流水不遮图| 亚州无线国产2021| 久久精品亚洲成在人线av| 亚洲综合网国产精品一区| 日韩成人极品在线内射3p蜜臀| 日韩偷拍一区二区三区视频 | 午夜视频在线观看国产19| 成人亚洲一区二区三区在线| 亚洲日韩乱码中文无码蜜桃臀| 91精品亚洲一区二区三区| 日本一二三区免费在线| 日本入室强伦姧bd在线观看| 午夜高清福利| 一区二区免费中文字幕| 美女露出粉嫩小奶头在视频18禁| 亚洲成a∨人片在无码2023| 精品国产一区二区三区香蕉| 精品人妻在线一区二区三区在线| 成人网站在线进入爽爽爽| 五月天精品视频在线观看| 亚洲av激情久久精品人| 日本av亚洲中文字幕| 国产乱子伦农村叉叉叉| 一区二区三区内射视频在线观看| 日本亚洲视频免费在线看| 久久国产免费观看精品3| 国产成年无码V片在线|