亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題詞和LDA模型的知識(shí)結(jié)構(gòu)識(shí)別研究

        2022-03-11 06:55:21黃月張昕
        現(xiàn)代情報(bào) 2022年3期
        關(guān)鍵詞:共詞分析主題詞知識(shí)結(jié)構(gòu)

        黃月 張昕

        關(guān)鍵詞:知識(shí)結(jié)構(gòu);LDA模型;主題詞;共詞分析;數(shù)據(jù)挖掘

        文獻(xiàn)數(shù)據(jù)知識(shí)發(fā)現(xiàn)的研究對(duì)象一般是學(xué)術(shù)檢索系統(tǒng)提供的科學(xué)文獻(xiàn)題錄,包含題目、作者、摘要、關(guān)鍵詞、分類號(hào)、來源、參考文獻(xiàn)等元素,這些元素分別作為檢索系統(tǒng)的檢索項(xiàng)提供檢索入口,此外通用的學(xué)術(shù)檢索系統(tǒng)還提供了包含題目、關(guān)鍵詞、摘要3種元素構(gòu)成的“主題詞”。

        知識(shí)結(jié)構(gòu)(IntellectualStructure),指根據(jù)某一領(lǐng)域的科學(xué)文獻(xiàn)進(jìn)行分析,通過對(duì)基于某種關(guān)系構(gòu)成的文獻(xiàn)矩陣進(jìn)行聚類而得到的組群及其關(guān)系。其中,每一組群對(duì)應(yīng)該領(lǐng)域的一個(gè)研究子領(lǐng)域(或稱研究主題)[1]。

        針對(duì)科學(xué)文獻(xiàn)題錄信息進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別是文獻(xiàn)計(jì)量分析的一項(xiàng)重要任務(wù),有助于幫助該領(lǐng)域的研究者了解研究主題及其關(guān)系。相比于關(guān)鍵詞,學(xué)術(shù)檢索系統(tǒng)中的主題詞更能反映作者關(guān)于這篇文獻(xiàn)主旨的概括。與傳統(tǒng)的知識(shí)結(jié)構(gòu)識(shí)別方法相比,LDA模型可以有效挖掘文獻(xiàn)詞語之間的語義關(guān)系,彌補(bǔ)傳統(tǒng)文獻(xiàn)計(jì)量在詞語間處理能力的不足,對(duì)題目、摘要等長(zhǎng)文本進(jìn)行主題提取可以在更大程度上保留文獻(xiàn)原始信息,能在一定程度上解決關(guān)鍵詞無法很好概括文獻(xiàn)信息的問題。本文探索基于主題詞和LDA模型的知識(shí)結(jié)構(gòu)識(shí)別,以數(shù)據(jù)挖掘領(lǐng)域頂尖期刊論文為例,并通過實(shí)驗(yàn)證明了其有效性。

        1相關(guān)工作概述

        1.1知識(shí)結(jié)構(gòu)識(shí)別

        傳統(tǒng)學(xué)科知識(shí)結(jié)構(gòu)識(shí)別方法是二步式的,即首先構(gòu)建文獻(xiàn)元素相似性矩陣,然后對(duì)該矩陣進(jìn)行結(jié)構(gòu)識(shí)別。常見文獻(xiàn)元素相似性矩陣構(gòu)建方法包括:文獻(xiàn)共被引、作者共被引、文獻(xiàn)耦合、作者文獻(xiàn)耦合和共詞分析等。這些思想已被廣泛應(yīng)用于知識(shí)結(jié)構(gòu)識(shí)別,并獲得了有效性驗(yàn)證。其中,通過共同詞語聯(lián)系到一起的文獻(xiàn)可能表示一個(gè)共同的研究主題[2],共詞分析常以高頻關(guān)鍵詞作為分析對(duì)象,在研究過程中沒有涉及到文本中包含的語義信息,得到研究結(jié)果比較粗略。

        越來越多的學(xué)者開始利用主題模型構(gòu)建方法,對(duì)文本語義內(nèi)容進(jìn)行分析,對(duì)學(xué)科主題進(jìn)行研究。隱含狄利克雷分配(LatentDirichletAllocation,LDA)模型,是一種比較成熟的主題模型[3],是一種無監(jiān)督學(xué)習(xí)技術(shù),可被用來識(shí)別大規(guī)模文檔集中潛在主題信息,與針對(duì)某一領(lǐng)域進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的本質(zhì)一致。LDA已被廣泛用于科學(xué)文獻(xiàn)情報(bào)分析,既包括主題識(shí)別[4]、主題演化[5]、新興主題發(fā)現(xiàn)[6]、學(xué)科交叉主題識(shí)別[7]等將LDA應(yīng)用于不同領(lǐng)域的研究,也包括不同語料下主題抽取效果分析[8]、最優(yōu)主題個(gè)數(shù)確定[9]等利用LDA優(yōu)化主題識(shí)別研究。

        1.2LDA模型

        LDA模型,在2003年由BleiDM等[10]提出認(rèn)為一篇文檔是由一組詞組成的集合,詞與詞之間沒有前后順序關(guān)系,且語料庫中的文檔也沒有順序關(guān)系。它是一個(gè)關(guān)于文檔、主題、詞語的3層貝葉斯概率生成模型,其核心思想是把文檔看成隱含主題的一個(gè)概率分布,主題看成詞語的一個(gè)概率分布。文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布,而該多項(xiàng)分布的參數(shù)服從Dirichlet分布。

        LDA模型首先由Dirichlet分布得到主題分布的參數(shù)的分布,然后隨機(jī)生成一個(gè)文檔的主題分布,之后在該文檔的每個(gè)位置,依據(jù)該文檔的主題分布隨機(jī)生成一個(gè)主題;然后由Dirichlet分布得到詞語分布的參數(shù)的分布,再得到主題的詞語分布,在該位置依據(jù)該主題的詞語分布隨機(jī)生成一個(gè)詞語,直到文檔的最后一個(gè)位置,生成整個(gè)文檔;最后重復(fù)以上過程,生成所有的文檔。

        2研究設(shè)計(jì)

        2.1研究思路

        為探究考慮主題詞和LDA模型進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的有效性,本文進(jìn)行3步研究,如圖1所示。首先,根據(jù)選定領(lǐng)域特點(diǎn)確定數(shù)據(jù)源、獲取原始數(shù)據(jù)、進(jìn)行數(shù)據(jù)預(yù)處理,以得到格式統(tǒng)一、主題詞(題目、摘要和關(guān)鍵詞)齊全的實(shí)驗(yàn)數(shù)據(jù)。然后,以關(guān)鍵詞或主題詞為實(shí)驗(yàn)對(duì)象,利用共現(xiàn)聚類或LDA模型分別進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別,即進(jìn)行4組知識(shí)結(jié)構(gòu)識(shí)別實(shí)驗(yàn)。其中,利用文獻(xiàn)計(jì)量網(wǎng)絡(luò)可視化軟件VOSviewer的共現(xiàn)聚類進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別,利用自編的Python程序構(gòu)建關(guān)鍵詞或主題詞語料庫作為L(zhǎng)DA模型輸入,使用開源GibbsLDA++工具包進(jìn)行LDA模型訓(xùn)練得到知識(shí)結(jié)構(gòu)識(shí)別結(jié)果。最后,結(jié)合數(shù)據(jù)挖掘領(lǐng)域知識(shí),對(duì)上述4組實(shí)驗(yàn)結(jié)果進(jìn)行兩兩有共性分析元素的對(duì)比分析,獲得基于關(guān)鍵詞和主題詞進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的差異、基于共現(xiàn)聚類和LDA模型進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的差異。

        2.2基于LDA模型的知識(shí)結(jié)構(gòu)識(shí)別方法

        本文結(jié)合目前主流做法,提出如下基于LDA模型的知識(shí)結(jié)構(gòu)識(shí)別方法。

        步驟1:根據(jù)實(shí)驗(yàn)?zāi)康墨@取實(shí)驗(yàn)數(shù)據(jù)。本研究針對(duì)兩種數(shù)據(jù)進(jìn)行基于LDA模型的知識(shí)結(jié)構(gòu)識(shí)別,一種是針對(duì)論文的關(guān)鍵詞,另一種是針對(duì)由題目、摘要和關(guān)鍵詞得到的切分后的主題詞。

        步驟2:語料庫的數(shù)據(jù)預(yù)處理。因?yàn)轭}目和摘要是短句和短篇形式,需要針對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞、去符號(hào)、詞性還原和去停用詞處理。

        步驟3:參數(shù)估計(jì)和推斷。利用LDA開源工具GibbsLDA++進(jìn)行模型訓(xùn)練,得到兩個(gè)超參數(shù)α、β的值。

        步驟4:最優(yōu)主題個(gè)數(shù)K的確定。觀察不同主題個(gè)數(shù)下困惑度[11]的變化,利用拐點(diǎn)來確定K。

        步驟5:計(jì)算在確定α、β、K下的研究主題情況。

        3實(shí)驗(yàn)數(shù)據(jù)

        3.1數(shù)據(jù)源選取

        數(shù)據(jù)挖掘作為一個(gè)相對(duì)新的研究領(lǐng)域還不是一種現(xiàn)有學(xué)科的子類別,因而采用在“谷歌學(xué)術(shù)指標(biāo)(GoogleScholarMetrics,GSM)”的“工程和計(jì)算機(jī)科學(xué)”類別的子類“數(shù)據(jù)挖掘與分析”中出現(xiàn)的出版物作為數(shù)據(jù)源。

        GSM主要使用h5指數(shù)和h5中位數(shù)兩種指數(shù)來幫助研究者去評(píng)估近期學(xué)術(shù)出版物中文章的可見度和影響力。2019版GSM涵蓋2014—2018年發(fā)表的文章,指標(biāo)基于2019年7月在谷歌學(xué)術(shù)搜索中索引的所有文章的引用,這也包括來自谷歌學(xué)術(shù)指標(biāo)本身未涵蓋的文章的引用[12]。在2019版GSM中列出了數(shù)據(jù)挖掘領(lǐng)域的9種學(xué)術(shù)期刊[13],進(jìn)行統(tǒng)計(jì),如表1所示,數(shù)據(jù)挖掘頂尖期刊的歷史都不是很長(zhǎng)?!禝EEETransactionsonKnowledgeandDataEngineering》是這里的第一個(gè)專業(yè)期刊,創(chuàng)刊于1989年,也比計(jì)算機(jī)其他領(lǐng)域(如:人工智能)的頂尖期刊歷史要短。此外,只有3種數(shù)據(jù)挖掘頂尖期刊創(chuàng)刊于21世紀(jì)之前,其余期刊創(chuàng)刊時(shí)間全部在2007年之后。

        綜上,本文以2019版GSM中“數(shù)據(jù)挖掘與分析”類別下的9種學(xué)術(shù)期刊在2014—2018年的題錄作為數(shù)據(jù)源。

        3.2原始數(shù)據(jù)獲取及預(yù)統(tǒng)計(jì)

        本文數(shù)據(jù)獲取策略:首先從文摘數(shù)據(jù)庫中WebofScience數(shù)據(jù)庫(WOS)中進(jìn)行檢索,檢索不到的以Scopus數(shù)據(jù)庫作補(bǔ)充。在WOS核心合集,利用基本檢索精確匹配出版物名稱,時(shí)間跨度為2014—2018年,選擇全記錄與引用的參考文獻(xiàn)進(jìn)行題錄下載保存為.txt文件。在Scopus中按ISSN進(jìn)行精確檢索,出版時(shí)間為2014—2018年,選擇所有字段進(jìn)行題錄下載保存為.ris文件。最終,共計(jì)下載3341條題錄。

        通過對(duì)2014—2018年9種數(shù)據(jù)挖掘領(lǐng)域頂尖學(xué)術(shù)期刊的年度發(fā)文量(599篇、691篇、712篇、663篇、676篇)統(tǒng)計(jì)發(fā)現(xiàn),總體呈現(xiàn)先上升后下降趨勢(shì)。2014—2016年發(fā)文量增長(zhǎng)率逐年降低,2016年發(fā)文量達(dá)到了最高點(diǎn)(712篇),這說明2016年是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn),2016年之前數(shù)據(jù)挖掘領(lǐng)域一直是研究的熱點(diǎn)。之后在2017年發(fā)文量達(dá)到最低點(diǎn),2018年略有回升,但仍低于2015年的發(fā)文量數(shù)據(jù),說明數(shù)據(jù)挖掘領(lǐng)域研究已經(jīng)逐漸成熟,發(fā)文量逐漸趨于平穩(wěn)。

        3.3原始數(shù)據(jù)預(yù)處理

        由于本文獲取的原始數(shù)據(jù)來源于不同科學(xué)文獻(xiàn)數(shù)據(jù)庫(WOS和Scopus)的題錄格式不同,需要對(duì)此異構(gòu)數(shù)據(jù)進(jìn)行預(yù)處理。

        1)把Scopus題錄格式轉(zhuǎn)換為更為普遍的WOS題錄格式。利用CiteSpace對(duì)從Scopus獲取的原始題錄將.ris轉(zhuǎn)換為.txt格式,獲得3341條具有統(tǒng)一WOS格式的題錄。

        2)保證WOS和Scopus中的關(guān)鍵詞字段含義相同。已知WOS包括作者關(guān)鍵詞DE和擴(kuò)展關(guān)鍵詞ID,而Scopus中只提供作者關(guān)鍵詞KW。經(jīng)核實(shí)發(fā)現(xiàn),經(jīng)過格式轉(zhuǎn)換過的題錄將Scopus中作者關(guān)鍵詞的縮寫由KW變?yōu)镮D,這與Scopus本意不一致,因此將格式轉(zhuǎn)換過的題錄文本中的作者關(guān)鍵詞縮寫由ID替換為DE。至此,獲得本文實(shí)驗(yàn)數(shù)據(jù)共計(jì)3341篇文檔。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1基于關(guān)鍵詞和共現(xiàn)聚類的知識(shí)結(jié)構(gòu)識(shí)別結(jié)果

        利用VOSviewer針對(duì)實(shí)驗(yàn)數(shù)據(jù)中的作者關(guān)鍵詞進(jìn)行關(guān)鍵詞共現(xiàn)聚類分析,結(jié)果采用圖譜顯示。結(jié)合領(lǐng)域知識(shí),得到2014—2018年數(shù)據(jù)挖掘領(lǐng)域頂尖期刊研究,可以歸納為7個(gè)研究主題(如圖2所示,括號(hào)里數(shù)字為類規(guī)模)。

        研究主題1為“聚類分類算法研究”,包括:clustering、classification、machinelearning、featureselection、informationretrieval、sentimentanalysis、datastreams、transferlearning等。研究主題2為“復(fù)雜網(wǎng)絡(luò)和圖挖掘”,包括:socialnetworkanaly?sis、communitydetection、graphmining、anomalydetection、complexnetwork、communitystructure等。研究主題3為“大數(shù)據(jù)和云計(jì)算”,包括:bigda?ta、queryprocessing、mapreduce、cloudcomputing、hadoop等。研究主題4為“社會(huì)媒體語義分析”,包括:socialnetworking(online)、socialmedia、onlinesocialnetwork、website、semantics等。研究主題5為“社會(huì)網(wǎng)絡(luò)預(yù)測(cè)和影響力分析”,包括:so?cialnetwork、forecasting、linkprediction、socialin?fluence、informationdiffusion等。研究主題6為“算法設(shè)計(jì)與實(shí)現(xiàn)”,包括algorithms、experimentation、performance、design等。研究主題7為“推薦系統(tǒng)研究”,包括:collaborativefiltering、recommendersystems、matrixfactorization等。這7個(gè)研究主題之間,聚類分類算法與大數(shù)據(jù)和云計(jì)算、復(fù)雜網(wǎng)絡(luò)和圖挖掘、社會(huì)媒體語義分析聯(lián)系較為緊密,復(fù)雜網(wǎng)絡(luò)和圖挖掘與社會(huì)媒體語義分析、社會(huì)網(wǎng)絡(luò)預(yù)測(cè)和影響力分析聯(lián)系較為緊密,推薦系統(tǒng)研究與社會(huì)網(wǎng)絡(luò)預(yù)測(cè)和影響力分析聯(lián)系較為緊密。

        4.2基于主題詞和共現(xiàn)聚類的知識(shí)結(jié)構(gòu)識(shí)別結(jié)果

        把實(shí)驗(yàn)數(shù)據(jù)中的作者關(guān)鍵詞部分整理為分詞詞典,利用自編的正向最大匹配算法對(duì)題目和摘要進(jìn)行分詞,并對(duì)每一條題錄內(nèi)容中篩選出的關(guān)鍵詞部分通過自編算法進(jìn)行去重,用Notepad++對(duì)篩選出的關(guān)鍵詞添加作者關(guān)鍵詞DE及VOSviewer軟件讀取數(shù)據(jù)必須識(shí)別到的縮寫內(nèi)容。經(jīng)多次共現(xiàn)次數(shù)實(shí)驗(yàn),基于主題詞共現(xiàn)聚類得到的網(wǎng)絡(luò)結(jié)構(gòu)均不是十分清晰,大致可以得到5個(gè)主題(如圖3所示,括號(hào)里數(shù)字為類規(guī)模)。

        研究主題1為“大數(shù)據(jù)管理與算法效率研究”,包括:datamining、bigdata、scalability、pri?vacy、effectivenessandefficiency、semantics、exper?imentalevaluation等。研究主題2為“分類和預(yù)測(cè)研究”,包括:classification、prediction、optimiza?tion、machinelearning、regression、featureselection等。研究主題3為“社會(huì)網(wǎng)絡(luò)分析和圖挖掘”,包括:socialnetwork、socialnetworks、twitter、socialmedia、theory、communitydetection、socialnetworkanalysis等。研究主題4為“推薦系統(tǒng)研究”,包括:ranking、recommendersystems、collaborativefil?tering、matrixfactorization、experimentation、baselinemethod、crowdsourcing、recommendersystem等。研究主題5為“聚類和時(shí)間序列分析”,包括:cluste?ring、timeseries、realdataset、datastreams、cluste?ringmethod、anomalydetection、knowledgediscovery、clusteringalgorithms、datastream等。在這5個(gè)研究主題中,社會(huì)網(wǎng)絡(luò)分析和圖挖掘與推薦系統(tǒng)研究這兩個(gè)研究主題聯(lián)系較為緊密。

        4.3基于關(guān)鍵詞和LDA模型的知識(shí)結(jié)構(gòu)識(shí)別結(jié)果

        1)利用自編Python程序抽取實(shí)驗(yàn)數(shù)據(jù)中的關(guān)鍵詞作為語料庫。

        2)語料庫的數(shù)據(jù)預(yù)處理。利用Python語言在JupyterNotebook軟件環(huán)境下,自定義Clean函數(shù),對(duì)實(shí)驗(yàn)語料庫進(jìn)行分詞、去符號(hào)、詞性還原處理,最終得到本實(shí)驗(yàn)語料庫的詞規(guī)模為37013。

        3)參數(shù)估計(jì)和推斷。在Linux環(huán)境下,基于開源工具包GibbsLDA++實(shí)現(xiàn)模型訓(xùn)練,設(shè)置迭代次數(shù)1000次,得到超參數(shù)α=1.430000、β=0.100000。

        4)最優(yōu)主題個(gè)數(shù)確定。困惑度計(jì)算結(jié)果如圖4所示,在主題個(gè)數(shù)為35時(shí)困惑度最小,因此得到最優(yōu)主題個(gè)數(shù)K=35。

        根據(jù)模型輸出文件獲得每個(gè)主題下與該主題最相關(guān)的詞語以及權(quán)重。主題1“軌跡數(shù)據(jù)挖掘”包括mining、image、trajectory、probabilistic等。主題2“復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析”包括network、com?plex、degree、topology、coefficient等。主題3“隱私安全保護(hù)”包括privacy、spatial、service、secur?ity、trust等。主題4“文本語義抽取”包括seman?tic、extraction、text、pattern等。主題5“動(dòng)態(tài)圖算法設(shè)計(jì)”包括design、dynamic、algorithm、graph、multiview等。主題6“矩陣分解”包括matrix、de?tection、factorization、nonnegative等。主題7“模糊分類算法”包括fuzzy、classification、statistic、rank等。主題8“自然語言處理概率語法模型”包括language、sentiment、natural、probabilistic、clas?sification等。主題9“時(shí)空數(shù)據(jù)挖掘”包括meth?od、location、network、performance、factor、spatio?temporal等。主題10“推薦系統(tǒng)研究”包括system、filtering、recommender、collaborative、design等。主題11“復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)中心性度量”包括model、centrality、feature、network、computational等。主題12“信息檢索中的相似度分析”包括analysis、re?trieval、similarity、discovery、cluster等。主題13“在線社交媒體互動(dòng)語義分析”包括social、medi?um、twitter、online、interaction、sentiment等。主題14“基于約束的距離聚類算法”包括clustering、learning、set、distance、algorithm、model、constraint等。主題15“最近鄰算法研究”包括query、pro?cessing、bayesian、neighbor、nearest、summarization、network、skyline、object、parallel、approximate、da?tabase等。主題16“搜索流分析”包括search、temporal、space、stream、analytics等。主題17“基于眾包的深度學(xué)習(xí)”包括algorithm、learning、ontology、crowdsourcing、deep等。主題18“機(jī)器學(xué)習(xí)及人工智能在文本上的應(yīng)用”包括learning、machine、text、intelligence、artificial等。主題19“分布式計(jì)算模型及分布式數(shù)據(jù)庫”包括compu?ting、database、distributed、model、machine等。主題20“馬爾可夫隨機(jī)場(chǎng)模型及最大似然算法研究”包括system、markov、random、likelihood、estima?tion等。主題21“主題模型及文本分類”包括modeling、topic、management、event、classification等。主題22“復(fù)雜網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)發(fā)現(xiàn)”包括com?munity、network、detection、dynamic、structure等。主題23“基于分解的網(wǎng)絡(luò)優(yōu)化方法”包括optimi?zation、social、network、learning、decomposition、structural、unsupervised等。主題24“特征選擇及用戶行為研究”包括selection、feature、user、be?havior、reduction、learning、profile、social等。主題25“圖聚類分析”包括graph、detection、sampling、latent、clustering、similarity等。主題26“社交網(wǎng)絡(luò)中的異常檢測(cè)”包括social、online、network、exper?imentation、rank、anomaly、spam、influence等。主題27“決策樹算法”包括algorithm、tree、per?formance、decision、ensemble等。主題28“時(shí)間序列分類”包括classification、time、series、visualiza?tion、kernel等。主題29“網(wǎng)絡(luò)度量和行為檢測(cè)”包括network、detection、behavior、metric、meas?ure、linear、database等。主題30“圖表征研究”包括graph、quality、representation、optimization、embedding等。主題31“數(shù)據(jù)不平衡及增量問題研究”包括analytics、concept、imbalanced、incre?mental、subgraph等。主題32“頻繁模式挖掘”包括pattern、rule、frequent、experimentation、utility、sequential、association等。主題33“基于回歸的鏈路預(yù)測(cè)”包括prediction、regression、link、stream、online等。主題34“擴(kuò)散理論及演化模型”包括model、influence、theory、diffusion、analysis等。主題35“基于半監(jiān)督的排序研究”包括ranking、local、semisupervised、selection、measurement等。

        4.4基于主題詞和LDA模型的知識(shí)結(jié)構(gòu)識(shí)別結(jié)果

        1)利用自編Python程序抽取實(shí)驗(yàn)數(shù)據(jù)中的主題詞作為語料庫。利用Python庫re模塊的正則表達(dá)式對(duì)字符串進(jìn)行處理,根據(jù)文本格式選擇multi?line模式,篩選出題目TI、關(guān)鍵詞DE、摘要AB3部分內(nèi)容。

        2)語料庫的數(shù)據(jù)預(yù)處理。利用Python語言在JupyterNotebook軟件環(huán)境下,自定義Clean函數(shù),對(duì)實(shí)驗(yàn)語料庫進(jìn)行分詞、去符號(hào)、詞性還原和去停用詞處理,最終得到本實(shí)驗(yàn)語料庫的詞規(guī)模為377408。

        3)參數(shù)估計(jì)和推斷。在Linux環(huán)境下,基于開源工具包GibbsLDA++實(shí)現(xiàn)模型訓(xùn)練,設(shè)置迭代次數(shù)1000次,得到超參數(shù)α=1.470000、β=0.100000。

        4)最優(yōu)主題個(gè)數(shù)確定。困惑度計(jì)算結(jié)果如圖5所示,在主題個(gè)數(shù)為34時(shí)困惑度最小,因此得到最優(yōu)主題個(gè)數(shù)K=34。

        根據(jù)模型輸出文件獲得每個(gè)主題下與該主題最相關(guān)的詞語以及權(quán)重。主題1“復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)中心性度量”包括network、node、measure、complex、sampling、centrality、degree等。主題2“事件進(jìn)程監(jiān)測(cè)”包括event、process、temporal、technique、management、natural、source、news、monitoring等。主題3“時(shí)空數(shù)據(jù)挖掘”包括service、spatial、ap?proach、probabilistic、propose、effectiveness等。主題4“文本語義相似性研究”包括similarity、text、document、semantic、method、retrieval等。主題5“聚類算法研究”包括clustering、algorithm、meth?od、matrix、proposed、distance、subspace、vector等。主題6“優(yōu)化算法研究”包括method、space、solution、concept、constraint、optimization等。主題7“信息擴(kuò)散影響度研究”包括influence、metric、diffusion、based、propagation等。主題8“動(dòng)態(tài)社交網(wǎng)絡(luò)鏈接預(yù)測(cè)”包括network、social、interac?tion、link、relationship、dynamic等。主題9“分類算法研究”包括learning、classification、machine、label、domain等。主題10“知識(shí)系統(tǒng)應(yīng)用研究”包括knowledge、system、technology、application、computing、study、cloud等。主題11“時(shí)間序列分析”包括time、series、study、product、method、dy?namic等。主題12“特征選擇及分類研究”包括feature、classification、selection、classset等。主題13“社團(tuán)結(jié)構(gòu)發(fā)現(xiàn)算法研究”包括community、de?tection、structure、anomaly、algorithm等。主題14“分布式任務(wù)性能研究”包括task、performance、distribution、result、sample、mechanism等。主題15“在線社交媒體網(wǎng)絡(luò)行為研究”包括social、us?er、online、medium、networking、behavior等。主題16“醫(yī)療數(shù)據(jù)挖掘”包括framework、predictive、patient、compared、video、record、accuracy、medi?cal、health、result、condition、disease等。主題17“圖像表征研究”包括approach、technique、multi?ple、representation、image、visualization等。主題18“分布式計(jì)算研究”包括algorithm、framework、distributed、rule、datasets、processing、mapreduce等。主題19“軌跡數(shù)據(jù)挖掘”包括pattern、mining、discovery、trajectory、frequent、traffic、sequence等。主題20“異構(gòu)數(shù)據(jù)挖掘”包括topic、type、paper、object、finding、heterogeneous、inference、relation?ship等。主題21“回歸模型研究”包括method、model、regression、variable、paper、proposed、sta?tistical、linear等。主題22“搜索排序研究”包括search、ranking、framework、question等。主題23“數(shù)據(jù)庫查詢處理”包括query、database、stream、object、processing等。主題24“決策樹算法”包括approach、method、set、tree、decision、strategy等。主題25“基于移動(dòng)通訊數(shù)據(jù)的人類行為研究”包括mobile、human、activity、article、impact、pa?per、tag、identification、phone等。主題26“推薦系統(tǒng)研究”包括user、system、recommendation、i?tem、preference、approach、rating、filtering、recom?mender、collaborative等。主題27“定位預(yù)測(cè)”包括prediction、location、application、resource、paper等。主題28“隱私安全保護(hù)”包括privacy、utili?ty、technique、control、access、security等。主題29“情感分析”包括analysis、sentiment、tweet、language、mining等。主題30“圖算法研究”包括graph、algorithm、edge、path、vertex等。主題31“數(shù)據(jù)集處理研究”包括approach、dataset、size、estimation等。主題32“大數(shù)據(jù)分析工具”包括data、paper、analytics、level、challenge、tradition?al、tool、massive等。主題33“算法性能研究”包括algorithm、efficient、application、result、perform?ance、scheme等。主題34“潛在混合模型研究”包括modeling、role、latent、factor、hierarchical、pa?rameter、mixture等。

        4.5結(jié)果對(duì)比分析

        在上述4組實(shí)驗(yàn)基礎(chǔ)上,進(jìn)行兩兩有共性分析元素的對(duì)比分析,包括以下4個(gè)方面。

        1)分別基于關(guān)鍵詞、主題詞進(jìn)行共現(xiàn)聚類的知識(shí)結(jié)構(gòu)識(shí)別對(duì)比。4.1和4.2實(shí)驗(yàn)結(jié)果表明,在關(guān)鍵詞基礎(chǔ)上,加入了分詞后的題目、摘要,得到的聚類個(gè)數(shù)變少,研究主題不夠突出,因?yàn)獒槍?duì)一篇文獻(xiàn)而言,其主題詞涵蓋的詞組往往比其關(guān)鍵詞范圍廣,故文獻(xiàn)之間的共性會(huì)變大,基于主題詞共現(xiàn)得到的聚類個(gè)數(shù)會(huì)變少。

        2)基于關(guān)鍵詞分別進(jìn)行共現(xiàn)聚類、LDA模型的知識(shí)結(jié)構(gòu)識(shí)別對(duì)比。4.1和4.3實(shí)驗(yàn)結(jié)果表明,前者得到的研究主題個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于后者得到的研究主題個(gè)數(shù),前者得到的研究主題更概括。例如,前者的研究主題2“復(fù)雜網(wǎng)絡(luò)和圖挖掘”與后者的研究主題2“復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析”、研究主題11“復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)中心性度量”、研究主題22“復(fù)雜網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)發(fā)現(xiàn)”和研究主題29“網(wǎng)絡(luò)度量和行為檢測(cè)”緊密相關(guān)。

        3)基于主題詞分別進(jìn)行共現(xiàn)聚類、LDA模型的知識(shí)結(jié)構(gòu)識(shí)別對(duì)比。4.2和4.4實(shí)驗(yàn)結(jié)果表明,前者得到的研究主題個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于后者得到的研究主題個(gè)數(shù),后者得到的研究主題更為細(xì)分和具體。例如,前者的研究主題5“聚類和時(shí)間序列分析”對(duì)應(yīng)后者的研究主題5“聚類算法研究”和研究主題11“時(shí)間序列分析”。再如,后者可以識(shí)別得到“文本語義相似性研究”“信息擴(kuò)散影響度研究”“醫(yī)療數(shù)據(jù)挖掘”等細(xì)粒度研究主題。

        4)分別基于關(guān)鍵詞、主題詞進(jìn)行LDA模型的知識(shí)結(jié)構(gòu)識(shí)別對(duì)比。4.3和4.4實(shí)驗(yàn)結(jié)果表明,二者得到的研究主題規(guī)模接近,均得到了細(xì)粒度的研究主題,二者存在大量共同或相關(guān)的研究主題和少量有差異的研究主題。例如,研究主題“軌跡數(shù)據(jù)挖掘”“隱私安全保護(hù)”“時(shí)空數(shù)據(jù)挖掘”“推薦系統(tǒng)研究”“復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)中心性度量”均被二者識(shí)別出來。又如,前者的研究主題34“擴(kuò)散理論及演化模型”和后者的研究主題7“信息擴(kuò)散影響度研究”很接近。此外,前者的研究主題6“矩陣分解”、后者的研究主題20“異構(gòu)數(shù)據(jù)挖掘”是二者有差異的研究主題。

        進(jìn)一步根據(jù)數(shù)據(jù)挖掘背景知識(shí),分析這4組實(shí)驗(yàn),基于關(guān)鍵詞(或主題詞)和共現(xiàn)聚類的知識(shí)結(jié)構(gòu)識(shí)別獲得的研究主題粒度更大,得到的研究主題更具概括性,例如:聚類、分類、推薦系統(tǒng)研究,并且可以獲得研究主題之間的關(guān)系,例如:社會(huì)網(wǎng)絡(luò)分析和推薦系統(tǒng)研究聯(lián)系較為緊密。而基于關(guān)鍵詞(或主題詞)和LDA模型的知識(shí)結(jié)構(gòu)識(shí)別獲得的研究主題粒度更小、更具體,提供的語義信息更多。具體而言:①研究主題結(jié)合具體應(yīng)用領(lǐng)域,能夠體現(xiàn)數(shù)據(jù)挖掘與其他領(lǐng)域的結(jié)合情況,例如“醫(yī)療數(shù)據(jù)挖掘”;②研究主題更細(xì)致,例如可以識(shí)別出“復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)中心性度量”和“異構(gòu)數(shù)據(jù)挖掘”這樣的具體研究主題;③研究主題涉及面更廣,包括“軌跡數(shù)據(jù)挖掘”“情感分析”“時(shí)間序列分析”“基于眾包的深度學(xué)習(xí)”等主題。這應(yīng)該是由于主題詞包括題目、關(guān)鍵詞、摘要3部分,相較于關(guān)鍵詞共現(xiàn)聚類只利用文獻(xiàn)的關(guān)鍵詞信息,前者產(chǎn)生的可解讀信息更多。

        綜上,若針對(duì)同樣的關(guān)鍵詞(或主題詞),基于關(guān)鍵詞的共現(xiàn)聚類效果要好于基于主題的共現(xiàn)聚類效果,基于共現(xiàn)聚類獲得的研究主題較為籠統(tǒng),但可以獲得研究主題之間的關(guān)系,而LDA模型獲得的研究主題涉及具體應(yīng)用更廣、主題更加細(xì)分。

        5結(jié)論

        針對(duì)科學(xué)文獻(xiàn)挖掘知識(shí)結(jié)構(gòu)兼具研究?jī)r(jià)值和實(shí)際價(jià)值。已有進(jìn)行知識(shí)結(jié)構(gòu)識(shí)別的方法鮮有從主題詞包括的題目、摘要和關(guān)鍵詞3方面入手,而考慮詞語間語義信息的知識(shí)結(jié)構(gòu)識(shí)別十分重要。本文充分考慮作者定義的具有高度語義概括的題目、摘要和關(guān)鍵詞,提出了基于主題詞和采用LDA模型的知識(shí)結(jié)構(gòu)識(shí)別方法,即首先要保證語料庫包含文獻(xiàn)的題目、摘要和關(guān)鍵詞信息,然后對(duì)語料庫進(jìn)行分詞、去符號(hào)、詞性還原和去停用詞預(yù)處理,再利用開源工具GibbsLDA++進(jìn)行LDA模型的超參估計(jì),最后利用困惑度來確定最優(yōu)主題個(gè)數(shù)。以基于谷歌學(xué)術(shù)指標(biāo)獲得的2014—2018年數(shù)據(jù)挖掘頂尖學(xué)術(shù)期刊論文為數(shù)據(jù)源,進(jìn)行基于關(guān)鍵詞(或主題詞)、采用共現(xiàn)聚類(或LDA模型)的4組交叉實(shí)證分析。結(jié)果表明,基于關(guān)鍵詞共現(xiàn)聚類不僅可以獲得聚類結(jié)果,還可以獲得類之間的關(guān)系,而基于主題詞和LDA模型的知識(shí)結(jié)構(gòu)識(shí)別有效且相對(duì)于傳統(tǒng)的基于關(guān)鍵詞共現(xiàn)聚類得到的研究主題更結(jié)合具體應(yīng)用領(lǐng)域、更細(xì)致,可以提供更多的信息用于研究主題解讀。在未來研究中,考慮對(duì)LDA模型進(jìn)行改進(jìn)以發(fā)現(xiàn)具體領(lǐng)域的新興研究主題。

        3576500338220

        猜你喜歡
        共詞分析主題詞知識(shí)結(jié)構(gòu)
        把握核心概念 優(yōu)化知識(shí)結(jié)構(gòu)
        物理之友(2020年12期)2020-07-16 05:39:18
        我國正當(dāng)防衛(wèi)研究的網(wǎng)絡(luò)知識(shí)結(jié)構(gòu)與核心脈絡(luò)
        法大研究生(2019年2期)2019-11-16 00:39:26
        概率統(tǒng)計(jì)知識(shí)結(jié)構(gòu)與方法拓展
        基于德溫特?cái)?shù)據(jù)庫的關(guān)鍵共性技術(shù)分析
        國內(nèi)圖書館嵌入式服務(wù)研究主題分析
        基于文獻(xiàn)計(jì)量分析我國生物科學(xué)素養(yǎng)研究狀況(2001~2016年)
        基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
        基于九因子模型的新手教師TPACK知識(shí)結(jié)構(gòu)分析
        我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
        我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
        亚洲乱码av中文一区二区| 国产精品扒开腿做爽爽爽视频| 能看的网站中文字幕不卡av| 开心五月激情综合婷婷色| 99精品国产综合久久麻豆| 欧美精品aaa久久久影院| 精品无码国产自产拍在线观看蜜| 特级黄色大片性久久久| 国产精品久久久久久久专区| 国产精品亚洲а∨无码播放不卡| 国产色第一区不卡高清| 男女好痛好深好爽视频一区| 成年女人粗暴毛片免费观看 | 欧美日韩中文国产一区发布 | 久久久国产熟女综合一区二区三区| 亚洲人成人一区二区三区| 人禽交 欧美 网站| 亚洲国产天堂久久综合网| 国产精品亚洲美女av网站| 亚洲色欲色欲www在线播放| 亚洲国产精品无码aaa片| 日本在线无乱码中文字幕 | 乱伦一区二| 国产又色又爽又高潮免费视频麻豆 | 亚洲sm另类一区二区三区| 自拍视频国产在线观看| 国内精品久久久久久久影视麻豆| 97人妻人人做人碰人人爽| 极品少妇人妻一区二区三区| 久久午夜无码鲁丝片直播午夜精品| 无码人妻精一区二区三区| 国产精品亚洲色婷婷99久久精品| 中文日本强暴人妻另类视频| 国产成人精品蜜芽视频| 丁香五月缴情综合网| 免费a级毛片18以上观看精品| 亚洲色图三级在线观看| 亚洲国产天堂av成人在线播放| 99久久国内精品成人免费| 99久久国产福利自产拍| √天堂中文官网在线|