基于LDA模型的統(tǒng)計(jì)學(xué)熱門主題挖掘及知識(shí)圖譜分析

2022-10-20 13:21:54商慧語(yǔ)廖莉莉

華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年5期

肖明，商慧語(yǔ)，肖毅，廖莉莉

(1.華中師范大學(xué)信息化辦公室，武漢 430079； 2.華中師范大學(xué)語(yǔ)言與語(yǔ)言教育研究中心，武漢 430079；3.中原銀行數(shù)智金融創(chuàng)新實(shí)驗(yàn)室，鄭州 450046； 4.華中師范大學(xué)信息管理學(xué)院，武漢 430079)

科學(xué)引文索引文獻(xiàn)作為科學(xué)技術(shù)研究成果的載體，是科研發(fā)展水平的重要體現(xiàn)，又是把握學(xué)科領(lǐng)域研究現(xiàn)狀、認(rèn)識(shí)熱門話題以及了解主流研究方法的重要途徑.2016年黨中央、國(guó)務(wù)院印發(fā)《國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略綱要》強(qiáng)調(diào)科技創(chuàng)新在國(guó)家發(fā)展全局的核心位置[1].近年來(lái)，文獻(xiàn)數(shù)量呈指數(shù)規(guī)模增長(zhǎng)，使得通過(guò)人工閱讀方式來(lái)獲取研究領(lǐng)域的相關(guān)信息變得愈加低效和困難.科研人員如何從海量文獻(xiàn)中把握學(xué)科領(lǐng)域的前沿?zé)狳c(diǎn)主題，預(yù)測(cè)其演化趨勢(shì)，進(jìn)而輔助科研選題與決策，找到創(chuàng)新突破口，推動(dòng)科技創(chuàng)新，成為統(tǒng)計(jì)學(xué)界關(guān)注的一個(gè)重要研究方向.本文利用統(tǒng)計(jì)學(xué)與NLP方法對(duì)統(tǒng)計(jì)學(xué)領(lǐng)域CSSCI期刊上的文獻(xiàn)進(jìn)行主題模型分析，通過(guò)信息抽取和整理歸納，得到統(tǒng)計(jì)學(xué)領(lǐng)域相關(guān)知識(shí)網(wǎng)絡(luò)圖譜，助力科研人員迅速了解統(tǒng)計(jì)學(xué)科的研究狀況，提高研究效率．

關(guān)于主題模型的方法，國(guó)內(nèi)外已有一些研究基礎(chǔ).國(guó)外主題模型的研究起源于Papadimitriou等[2]提出的隱性語(yǔ)義索引(LSI).隱性語(yǔ)義索引的基本思想是通過(guò)奇異值分解(SVD)構(gòu)造一個(gè)維度比原空間低的全新的隱性語(yǔ)義空間，從而找到文本更簡(jiǎn)單的表達(dá)方式；Hofmann[3]在LSI的基礎(chǔ)上進(jìn)一步提出了概率隱性語(yǔ)義索引(pLSI)，不同于LSI以最優(yōu)低秩逼近作為優(yōu)化目標(biāo)，pLSI將觀測(cè)值的似然值作為優(yōu)化目標(biāo)并使其最大化；2003年，Blei等[4]基于貝葉斯思想提出了隱含狄利克雷分布(LDA)，將pLSI中待估參數(shù)視為隨機(jī)變量，對(duì)其施加Dirichlet先驗(yàn)分布，并通過(guò)最大后驗(yàn)估計(jì)進(jìn)行推斷；AlSumait等[5]提出在線LDA(online latent Dirichlet allocation， OLDA)模型，通過(guò)演化矩陣記錄已有主題，檢測(cè)新主題，根據(jù)到達(dá)的文本在線更新模型，用來(lái)表示主題內(nèi)容和強(qiáng)度的演化，但是忽略了文本量對(duì)主題數(shù)量的影響.因此，LDA在主題內(nèi)容分析上比pLSI更加合理有效．

對(duì)于各學(xué)科進(jìn)行文獻(xiàn)計(jì)量分析的研究，已經(jīng)取得了非常豐富的成果.針對(duì)期刊的個(gè)案研究有，仇一微等[6]和汪琛等[7]對(duì)期刊《統(tǒng)計(jì)與決策》的歷年文獻(xiàn)進(jìn)行了計(jì)量分析，發(fā)現(xiàn)領(lǐng)域內(nèi)合作研究不斷交叉和演化.在統(tǒng)計(jì)學(xué)領(lǐng)域的文獻(xiàn)計(jì)量分析方面.2012年，楊國(guó)立[8]考察了1998—2010年統(tǒng)計(jì)學(xué)研究機(jī)構(gòu)、被引頻次、高產(chǎn)作者、高產(chǎn)機(jī)構(gòu)的分布情況；2019年，韓兆洲等[9]利用編程語(yǔ)言R分析了統(tǒng)計(jì)學(xué)核心期刊的分布情況和研究現(xiàn)狀.在圖書情報(bào)學(xué)領(lǐng)域的文獻(xiàn)計(jì)量分析方面，2018年，朱茂然等[10]通過(guò)相似主題下的詞匯概率分布得到主題內(nèi)容的變化，運(yùn)用在中文情報(bào)學(xué)領(lǐng)域，發(fā)現(xiàn)“語(yǔ)義分析”等主題的關(guān)注度持續(xù)上升；2021年，譚春輝等[11]采用近20年來(lái)CKNI及Web of Science收錄的數(shù)據(jù)挖掘領(lǐng)域核心期刊論文，通過(guò)LDA主題模型分析國(guó)內(nèi)外該領(lǐng)域熱點(diǎn)主題演化的區(qū)別與聯(lián)系；2021年，張金年等[12]以2017—2019年圖書館學(xué)領(lǐng)域7本CSSCI來(lái)源期刊論文為研究對(duì)象，發(fā)現(xiàn)有72位潛在合作者，8個(gè)潛在合作團(tuán)隊(duì)，1個(gè)整體合作中心和多個(gè)區(qū)域合作中心，而潛在合作主題為7大類.此外，在其他學(xué)科領(lǐng)域有，呂拉昌等[13]借助文獻(xiàn)計(jì)量工具，發(fā)現(xiàn)區(qū)域創(chuàng)新系統(tǒng)與大數(shù)據(jù)等前沿技術(shù)融合的趨勢(shì)較為明顯，未來(lái)區(qū)域創(chuàng)新系統(tǒng)的研究將趨向于多視角、多尺度、多學(xué)科，注重創(chuàng)新主體及創(chuàng)新行為、創(chuàng)新主體與創(chuàng)新環(huán)境的耦合研究；邱均平等[14]分析CNKI收錄的近10年關(guān)于大數(shù)據(jù)的論文，通過(guò)LDA主題模型能夠較為準(zhǔn)確地提取大數(shù)據(jù)領(lǐng)域文獻(xiàn)的研究主題，有利于研究人員把握研究方向，探尋新興主題；周健等[15]通過(guò)LDA主題模型對(duì)不同時(shí)間窗口下的區(qū)塊鏈文獻(xiàn)進(jìn)行挖掘，引入新穎度指標(biāo)和熱度指標(biāo)來(lái)識(shí)別熱點(diǎn)主題，挖掘出區(qū)塊鏈研究主題及熱點(diǎn)分布.還有部分學(xué)者在研究如何提高分類準(zhǔn)確率，代表性的成果有，郭劍飛[16]采用多個(gè)LDA模型來(lái)增強(qiáng)主題完備性，提升了分類準(zhǔn)確率與穩(wěn)定性；李湘東等[17]考察基于加權(quán)的LDA方法，結(jié)合k近鄰和支持向量機(jī)等算法，提高主題獲取的準(zhǔn)確率；張金柱等[18]探討依存句法抽取短語(yǔ)構(gòu)建短語(yǔ)序列，并結(jié)合向量聚類方法分析研究相似度與潛在合作網(wǎng)絡(luò)，結(jié)果可讀性和解釋性更強(qiáng)；朱光等[19]利用LDA模型和長(zhǎng)短期記憶模型的關(guān)聯(lián)預(yù)測(cè)方法，可以更準(zhǔn)確挖掘研究主題，分析主題關(guān)聯(lián)關(guān)系；關(guān)鵬等[20]等發(fā)現(xiàn)摘要和關(guān)鍵詞+摘要作為語(yǔ)料的LDA主題抽取的效果均優(yōu)于關(guān)鍵詞作為語(yǔ)料的LDA主題抽取效果；阮光冊(cè)等[21]發(fā)現(xiàn)結(jié)合詞權(quán)重的LDA模型，具有更好的模型擬合度和主題的語(yǔ)義區(qū)分度；李賀等[22]利用LDA模型與Kano模型設(shè)置用戶需求調(diào)查問(wèn)卷，結(jié)合用戶滿意指數(shù)分析各項(xiàng)需求對(duì)用戶滿意度的影響，更有效克服傳統(tǒng)用戶需求調(diào)查方法中存在的需求來(lái)源滯后及可靠性不足等問(wèn)題．

綜上，上述文章對(duì)研究熱點(diǎn)進(jìn)行分析多采用文獻(xiàn)計(jì)量方法，而運(yùn)用LDA主題模型和“摘要+關(guān)鍵詞”分析統(tǒng)計(jì)學(xué)文獻(xiàn)的熱門主題的文章極少.為適應(yīng)當(dāng)前文獻(xiàn)數(shù)量大幅度增加的現(xiàn)狀，本文試圖基于LDA模型，以統(tǒng)計(jì)學(xué)CSSCI期刊為數(shù)據(jù)來(lái)源分析統(tǒng)計(jì)學(xué)學(xué)科熱門主題、演化趨勢(shì)及主流研究方法．

1 研究方法

LDA在主題模型中占有非常重要的地位，常用來(lái)對(duì)文本進(jìn)行分類.以下基于LDA模型來(lái)闡述本文的具體研究方法．

1.1 LDA主題模型

LDA作為主題生成模型的一種，意味著文章中的每一個(gè)詞的生成過(guò)程相同，均是文檔先以一定的概率分布挑選一個(gè)主題，接著，該主題又以一定的概率分布生成某一個(gè)詞語(yǔ)，如此循環(huán)往復(fù).文檔生成主題屬于多項(xiàng)式分布，主題生成詞語(yǔ)也屬于多項(xiàng)式分布.隱含狄利克雷分布模型的終極目標(biāo)就是找到主題集合，接著把詞-文檔概率分布變成主題-文檔概率分布和詞-主題概率分布．

1.2 Collapsed Gibbs Sampling參數(shù)估計(jì)

關(guān)于隱含狄利克雷分布模型的參數(shù)估計(jì)方式，本文綜合考慮其復(fù)雜性、準(zhǔn)確性及可操作性，采用Collapsed Gibbs Sampling算法，即主題-文檔概率分布和詞-主題概率分布.利用積分避開待估計(jì)的主題-文檔概率分布θ和詞-主題概率分布φ.一旦知道了每個(gè)詞所屬的主題，就可以通過(guò)統(tǒng)計(jì)頻數(shù)的方式計(jì)算待估計(jì)的主題-文檔概率分布θ和詞-主題概率分布φ.本文采用馬氏鏈蒙特卡羅方法(MCMC)分解問(wèn)題，一次只采樣一個(gè)因變量，采樣公式的最終形式可推導(dǎo)為式(1)：

(1)

其中，假設(shè)wi=t，zi表示第i個(gè)單詞所歸屬的主題類別；i表示提取第i項(xiàng)；表示k主題中詞項(xiàng)v的出現(xiàn)頻次；βv表示詞項(xiàng)v的Dirichlet先驗(yàn)；表示文檔m中主題z的出現(xiàn)頻次；αz表示主題z的Dirichlet先驗(yàn)．

當(dāng)?shù)弥總€(gè)單詞w的主題z的編號(hào)，則可按下式計(jì)算相關(guān)參數(shù)：

(2)

(3)

其中，φk，t表示主題k中出現(xiàn)詞語(yǔ)t的概率；θm， k表示文獻(xiàn)m中主題k所占的比重，若每個(gè)單詞的主題標(biāo)簽明確，代入公式(2)、公式(3)即可完成參數(shù)估計(jì)．

1.3 確定主題個(gè)數(shù)

LDA主題數(shù)的確定依據(jù)困惑度理論.可用困惑度衡量隱含狄利克雷分布模型擬合的好壞，困惑度越小，擬合度越高.文檔生成模型視為詞在句子中某個(gè)位置的概率分布，表示每一個(gè)詞在此位置出現(xiàn)的概率．

(4)

2 數(shù)據(jù)來(lái)源與處理

2.1 數(shù)據(jù)來(lái)源

實(shí)驗(yàn)數(shù)據(jù)通過(guò)Python 3.6爬取自中國(guó)知網(wǎng)中的統(tǒng)計(jì)學(xué)類CSSCI期刊《統(tǒng)計(jì)研究》《統(tǒng)計(jì)與信息論壇》《數(shù)理統(tǒng)計(jì)與管理》《統(tǒng)計(jì)與決策》創(chuàng)辦至今發(fā)布過(guò)的全部文章，共獲取文獻(xiàn)43 001篇.去除與統(tǒng)計(jì)學(xué)專業(yè)知識(shí)無(wú)關(guān)的刊文后保留文獻(xiàn)41 495篇，保留率約96.5%.其中，取自《統(tǒng)計(jì)研究》(5 709篇)占比約13.76%；《統(tǒng)計(jì)與決策》(27 780篇)占比約66.95%；《數(shù)理統(tǒng)計(jì)與管理》(3 771篇)占比約9.09%；《統(tǒng)計(jì)與信息論壇》(4 235篇)占比約10.21%.相關(guān)字段為九個(gè)，分別是標(biāo)題、關(guān)鍵字、摘要、作者、作者機(jī)構(gòu)、引用數(shù)、下載數(shù)、出版年月、所屬期刊．

2.2 數(shù)據(jù)處理

本研究使用摘要作為語(yǔ)料進(jìn)行實(shí)驗(yàn).從實(shí)驗(yàn)的可操作性及期刊的主題可比較性出發(fā)，選取2007年1月至2020年12月發(fā)布的文章，刪除期刊導(dǎo)讀、書評(píng)、投稿須知、啟事、公告、編讀往來(lái)、簡(jiǎn)訊、答疑、選題方向等無(wú)摘要的文獻(xiàn)后保留文獻(xiàn)26 397篇(其中《統(tǒng)計(jì)研究》2 830篇，《統(tǒng)計(jì)與決策》18 838篇，《數(shù)理統(tǒng)計(jì)與管理》1 759篇，《統(tǒng)計(jì)與信息論壇》2 970篇)．

首先對(duì)原始語(yǔ)料庫(kù)進(jìn)行預(yù)處理.用jieba分詞庫(kù)把一句話切分成若干個(gè)詞語(yǔ)，采用停用詞及自定義字典兩種方式進(jìn)行文本整體去噪和分詞去噪，然后統(tǒng)一轉(zhuǎn)換為易于理解的向量空間模型．

2.3 主題數(shù)目確定和主題標(biāo)簽標(biāo)注

借助math庫(kù)的自定義函數(shù)計(jì)算困惑度[23]，獲取“文檔摘要-表征詞”的稀疏表征、主題數(shù)量以及模型擬合結(jié)果.經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn)主題數(shù)量為20時(shí)最符合“統(tǒng)計(jì)學(xué)”的實(shí)驗(yàn)?zāi)Ｐ?，每個(gè)主題由高比率表征詞按比率從大到小依次排列組成，它們共同代表了這一主題的主旨含義.邀請(qǐng)兩位同行專家在多次協(xié)商后分別對(duì)每個(gè)主題用統(tǒng)計(jì)學(xué)領(lǐng)域代表性術(shù)語(yǔ)對(duì)各個(gè)主題進(jìn)行標(biāo)簽標(biāo)注.并將抽取出的20個(gè)研究主題分為13個(gè)內(nèi)容型主題(topic-1到 topic-13)和7個(gè)方法型主題(topic-14到 topic-20)，如表1所示．

表1 主題屬性分類與主題表征詞展示Tab.1 Topic attribute classification and topic epithet display

續(xù)表1

2.4 主題模型評(píng)價(jià)

從表征詞覆蓋率(即每個(gè)表征詞的概率和)對(duì)各個(gè)主題進(jìn)行評(píng)價(jià)，以了解模型的優(yōu)劣.高質(zhì)量主題的表征詞詞頻概率分布一般表現(xiàn)為嚴(yán)重的偏斜狀態(tài)，較少的核心詞以高概率出現(xiàn)，其他絕大多數(shù)詞語(yǔ)出現(xiàn)的概率很小.而低質(zhì)量主題的表征詞一般由若干隨機(jī)單詞構(gòu)成，且每個(gè)詞的出現(xiàn)概率較小，很難找到核心表征詞主題.所以，可以根據(jù)表征詞的覆蓋率對(duì)主題的質(zhì)量進(jìn)行篩選.設(shè)Pij是第i個(gè)主題的第j個(gè)表征詞出現(xiàn)的概率，可將第i個(gè)topic的前m個(gè)詞的概率和Coverage(i，m)定義為：

(5)

本文選取m=20時(shí)的表征詞覆蓋率.在爬取的字段中，“引用數(shù)”與“下載數(shù)”為數(shù)值型數(shù)據(jù)，可以直接分析使用；“關(guān)鍵詞”與“作者機(jī)構(gòu)”存儲(chǔ)在列表中，為半結(jié)構(gòu)化數(shù)據(jù)，通過(guò)切分計(jì)數(shù)可衍生數(shù)值型特征(如關(guān)鍵詞出現(xiàn)頻次，關(guān)鍵詞-作者機(jī)構(gòu)共現(xiàn)頻次)；“標(biāo)題”與“摘要”屬于非結(jié)構(gòu)化文本數(shù)據(jù).本研究基于以上三類數(shù)據(jù)，對(duì)統(tǒng)計(jì)學(xué)期刊的關(guān)鍵詞分布進(jìn)行對(duì)比分析．

3 統(tǒng)計(jì)學(xué)知識(shí)網(wǎng)絡(luò)分析

3.1 統(tǒng)計(jì)學(xué)關(guān)鍵詞分布

從關(guān)鍵詞維度看，四大期刊創(chuàng)辦至今涉及關(guān)鍵詞3.4萬(wàn)個(gè)，其中2007—2013年統(tǒng)計(jì)學(xué)的熱門關(guān)鍵詞如圖1所示，2014—2020年統(tǒng)計(jì)學(xué)的熱門關(guān)鍵詞分布如圖2所示.兩張圖中均出現(xiàn)經(jīng)濟(jì)增長(zhǎng)、面板數(shù)據(jù)、貨幣政策、聚類分析、指標(biāo)體系等詞，表明這些詞是統(tǒng)計(jì)學(xué)領(lǐng)域持續(xù)的熱門話題和主流方法.根據(jù)2007—2013年的關(guān)鍵詞，前7年統(tǒng)計(jì)學(xué)的研究熱點(diǎn)集中在國(guó)內(nèi)生產(chǎn)總值、時(shí)間序列預(yù)測(cè)及金融產(chǎn)品的組合投資方面；最常使用的方法是GM(灰色模型法)、VaR(風(fēng)險(xiǎn)價(jià)值模型)和連接函數(shù).而2014—2020年的統(tǒng)計(jì)學(xué)研究熱點(diǎn)不只是集中在國(guó)內(nèi)生產(chǎn)總值的預(yù)測(cè)，更重要的是注重宏觀貨幣調(diào)控、產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化及產(chǎn)業(yè)附加值提高.在研究方法上則大量采用結(jié)構(gòu)方程模型或分位數(shù)回歸法.此外，大數(shù)據(jù)成為近年來(lái)新增的高頻詞，表明大數(shù)據(jù)成為了統(tǒng)計(jì)學(xué)領(lǐng)域的新型熱點(diǎn)話題，揭示了統(tǒng)計(jì)學(xué)學(xué)科未來(lái)的研究走向．

圖1 2007—2013年統(tǒng)計(jì)學(xué)熱門關(guān)鍵詞分布Fig.1 Distribution of popular keywords in statistics from 2007 to 2013

圖2 2014—2020年統(tǒng)計(jì)學(xué)熱門關(guān)鍵詞分布Fig.2 Distribution of popular keywords in statistics from 2014 to 2020

3.2 “內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)

利用LDA潛在主題模型對(duì)預(yù)處理后的語(yǔ)料庫(kù)進(jìn)行聚類，經(jīng)過(guò)Python編程共提煉出20個(gè)主題集群(topic-m)，將這些主題集群進(jìn)一步拆分為13個(gè)研究?jī)?nèi)容主題(subject-p)和7個(gè)研究方法主題(method-q).將基于subject-p與method-q在每篇文獻(xiàn)中的共現(xiàn)關(guān)系，建立“subject-method”鄰接矩陣，并進(jìn)行“subject-method”二模網(wǎng)絡(luò)的可視化分析．

3.2.1 “內(nèi)容-方法”二模網(wǎng)絡(luò) 二模網(wǎng)絡(luò)是描述兩種異質(zhì)數(shù)據(jù)之間關(guān)系的網(wǎng)絡(luò).設(shè)S=(s1，s2，…，sp)表示統(tǒng)計(jì)學(xué)領(lǐng)域的“研究?jī)?nèi)容”數(shù)據(jù)集，p=13；M=(m1，m2，…，mq)表示統(tǒng)計(jì)學(xué)領(lǐng)域的“研究方法”數(shù)據(jù)集，q=7；G=(g1，g2，…，gp)，其中g(shù)p=(g1n，g2n，…，gqp)表示各研究方法和研究?jī)?nèi)容共現(xiàn)的文獻(xiàn)集合數(shù)．

圖3中共有節(jié)點(diǎn)20個(gè)，邊31條.其中，紅色圓點(diǎn)表示研究方法(method)，灰色圓點(diǎn)表示研究?jī)?nèi)容(subject).與此節(jié)點(diǎn)相連的邊的數(shù)目稱為“度”，“度”越大，圓點(diǎn)越大，表示該研究方法更具普適性或者該研究?jī)?nèi)容為熱門問(wèn)題.邊的粗細(xì)與該研究方法和研究?jī)?nèi)容的共現(xiàn)次數(shù)呈正比關(guān)系，觀察粗邊，可挖掘統(tǒng)計(jì)學(xué)最熱門的研究方法及應(yīng)用最廣泛的領(lǐng)域.統(tǒng)計(jì)學(xué)領(lǐng)域?qū)W者的熱門研究話題及典型研究方法的“內(nèi)容-方法”二模網(wǎng)絡(luò)如圖3所示．

圖3 “內(nèi)容-方法”二模網(wǎng)絡(luò)Fig.3 “Content-method” 2-mode network

3.2.2 一種研究方法對(duì)應(yīng)多項(xiàng)研究?jī)?nèi)容由圖3可知，較大的method節(jié)點(diǎn)包括method-1評(píng)價(jià)體系、method-2抽樣調(diào)查，并且，這兩個(gè)節(jié)點(diǎn)與周邊研究?jī)?nèi)容連線最多，表明其是統(tǒng)計(jì)學(xué)研究領(lǐng)域中最常被采用的研究方法．

method-1評(píng)價(jià)體系被用于10項(xiàng)研究?jī)?nèi)容，其中，subject-9經(jīng)濟(jì)增長(zhǎng)與subject-6企業(yè)管理與該方法連線較粗，表明method-1評(píng)價(jià)體系在統(tǒng)計(jì)學(xué)77%以上的領(lǐng)域均具有適用性，這與統(tǒng)計(jì)目標(biāo)多為評(píng)估某一政策或某一行為緊密相關(guān)．

method-2抽樣調(diào)查被用于8項(xiàng)研究?jī)?nèi)容.由于總體樣本太大或者實(shí)驗(yàn)破壞性強(qiáng)，普查不太現(xiàn)實(shí)，所以抽樣調(diào)查一直受到傳統(tǒng)統(tǒng)計(jì)學(xué)的青睞，并借助低成本、高成效的優(yōu)勢(shì)成為統(tǒng)計(jì)學(xué)領(lǐng)域主流的研究方法．

3.2.3 一項(xiàng)研究?jī)?nèi)容對(duì)應(yīng)多種研究方法圖3中，各主題節(jié)點(diǎn)(subject)的大小相似，即與各研究?jī)?nèi)容耦合的研究方法數(shù)目相近，每個(gè)研究主題對(duì)應(yīng)的研究方法約為2～3個(gè).subject-7大數(shù)據(jù)與周圍method的連線最多，包括機(jī)器學(xué)習(xí)、模型改進(jìn)、聚類分析、求最優(yōu)解4種方法.對(duì)大數(shù)據(jù)相關(guān)問(wèn)題的大量研究與近年來(lái)海量數(shù)據(jù)的出現(xiàn)有關(guān)，不只是結(jié)構(gòu)化數(shù)據(jù)，更多的是半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù).近年來(lái)各類深度學(xué)習(xí)算法、遺傳算法及傳統(tǒng)因子分析、主成分分析的應(yīng)用實(shí)踐是當(dāng)代科研人員急于體現(xiàn)大數(shù)據(jù)價(jià)值的表現(xiàn)．

從圖3還可看出， subject-1生產(chǎn)效率對(duì)應(yīng)研究方法有評(píng)價(jià)體系、模型改進(jìn)、最優(yōu)解3種；subject-2金融風(fēng)險(xiǎn)對(duì)應(yīng)的研究方法有評(píng)價(jià)體系、抽樣調(diào)查、最優(yōu)解3種；subject-3貨幣政策對(duì)應(yīng)的研究方法有評(píng)價(jià)體系、模型改進(jìn)2種；subject-4居民消費(fèi)、subject-6企業(yè)管理、subject-9經(jīng)濟(jì)增長(zhǎng)對(duì)應(yīng)的研究方法都有評(píng)價(jià)體系、抽樣調(diào)查2種．

3.3 “作者-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)構(gòu)建與分析

“作者-內(nèi)容-方法”共現(xiàn)是指不同作者的論文其內(nèi)容和方法高度一致.在一個(gè)數(shù)據(jù)集合內(nèi)，不同的作者使用的相同主題(topic)越多，則表明他們的研究?jī)?nèi)容越相似；反之，如果某個(gè)主題僅個(gè)別作者討論，則表明其研究?jī)?nèi)容較為獨(dú)特．

本次實(shí)驗(yàn)共涉及1.5萬(wàn)人次作者，依據(jù)普賴斯公式確定候選核心作者.來(lái)自暨南大學(xué)的韓兆洲教授發(fā)表CSSCI論文最多，累計(jì)發(fā)文59篇，即nmax=59.通過(guò)普萊斯公式可得最低發(fā)文量為M=5.75，表明發(fā)表文獻(xiàn)6篇及以上的作者為候選核心作者，總計(jì)540位.考慮到候選作者數(shù)目較多，為使結(jié)果展示更加清晰明確，本次實(shí)驗(yàn)限制發(fā)文數(shù)在20篇以上，滿足該條件的作者有35人，涉及文獻(xiàn)1 031篇.構(gòu)建的“作者-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)如圖4所示．

圖4 “作者-方法-內(nèi)容”多重共現(xiàn)網(wǎng)絡(luò)Fig.4 “Author-methodology-content” co-occurrence network

圖4中共有節(jié)點(diǎn)55個(gè)(包括35個(gè)作者節(jié)點(diǎn)、13個(gè)研究?jī)?nèi)容節(jié)點(diǎn)、7個(gè)研究方法節(jié)點(diǎn))，邊143條.紅色圓點(diǎn)表示作者節(jié)點(diǎn)，灰色圓點(diǎn)表示主題節(jié)點(diǎn).度表示與此節(jié)點(diǎn)相連邊的數(shù)目，度越大，則圓點(diǎn)面積越大，表明該作者涉獵的研究面越廣.邊的粗細(xì)與該作者在該研究主題下發(fā)表過(guò)的文獻(xiàn)數(shù)目成正比，邊越粗，也表示該作者越擅長(zhǎng)此領(lǐng)域的研究?jī)?nèi)容或研究方法.由于圖4中的節(jié)點(diǎn)較多，不易觀察，剔除“作者-內(nèi)容-方法”共現(xiàn)頻次≤5次的節(jié)點(diǎn)及邊，并將研究?jī)?nèi)容全部置于左邊，研究方法置于右邊，作者節(jié)點(diǎn)置于中間，精煉版的“作者-方法-內(nèi)容”共現(xiàn)網(wǎng)絡(luò)如圖5所示．

圖5 “作者-方法-內(nèi)容”共現(xiàn)網(wǎng)絡(luò)(精煉版)Fig.5 “Author-methodology-content” co-occurrence network(optimized version)

依據(jù)圓點(diǎn)大小，涉及研究范圍較廣的學(xué)者有暨南大學(xué)韓兆洲和劉建平、廈門大學(xué)朱建平、中國(guó)人民大學(xué)金勇進(jìn)、中國(guó)人民大學(xué)孟生旺.從研究?jī)?nèi)容來(lái)看，subject-7大數(shù)據(jù)和subject-8時(shí)間序列領(lǐng)域的引領(lǐng)研究學(xué)者為朱建平，subject-3貨幣政策的引領(lǐng)學(xué)者為許滌龍，且其慣用研究方法為method-1評(píng)價(jià)體系法；subject-6企業(yè)管理領(lǐng)域的代表研究者為孟生旺，subject-9經(jīng)濟(jì)增長(zhǎng)領(lǐng)域的代表科研人員為劉建平.從研究方法來(lái)看，method-1評(píng)價(jià)體系法及method-2抽樣調(diào)查法仍是Top熱門作者最慣用的研究手段，與上節(jié)“內(nèi)容-方法”二模共現(xiàn)網(wǎng)絡(luò)分析結(jié)論呈現(xiàn)一致性．

從作者角度出發(fā)，依據(jù)邊的粗細(xì)，可以揭示“作者-內(nèi)容-方法”隱性關(guān)聯(lián)組.比如關(guān)聯(lián)組“許滌龍-subject-3貨幣政策-method-1評(píng)價(jià)體系”“朱建平-subject-7大數(shù)據(jù)-method-6機(jī)器學(xué)習(xí)”等.據(jù)此關(guān)聯(lián)組可得到，許滌龍常用評(píng)價(jià)體系法研究貨幣政策相關(guān)問(wèn)題，朱建平常用機(jī)器學(xué)習(xí)相關(guān)方法研究大數(shù)據(jù)領(lǐng)域問(wèn)題.由此可方便研究人員了解統(tǒng)計(jì)學(xué)各領(lǐng)域的熱門研究方法及領(lǐng)軍學(xué)者，節(jié)省研究前人成果的時(shí)間．

3.4 “時(shí)間-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)構(gòu)建與分析

統(tǒng)計(jì)學(xué)的四大CSSCI期刊自創(chuàng)刊以來(lái)，其研究范疇及應(yīng)用領(lǐng)域隨著時(shí)代的發(fā)展呈現(xiàn)出不同的特點(diǎn).本節(jié)將15年的刊文分為兩個(gè)時(shí)間段(2007—2013年和2014—2020年)，采用與上節(jié)相同的方式構(gòu)建“時(shí)間-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)，以此反映統(tǒng)計(jì)學(xué)領(lǐng)域各主題強(qiáng)度的變化趨勢(shì)．

依據(jù)LDA潛在主題模型可確定每篇文獻(xiàn)的出版時(shí)間與其所屬研究?jī)?nèi)容類別、研究方法類別的對(duì)應(yīng)關(guān)系.統(tǒng)計(jì)“時(shí)間-內(nèi)容”“時(shí)間-方法”的共現(xiàn)頻次后，可得“時(shí)間-內(nèi)容”共現(xiàn)矩陣及“時(shí)間-方法”共現(xiàn)矩陣.構(gòu)建的“時(shí)間-內(nèi)容-方法”三模共現(xiàn)網(wǎng)絡(luò)如圖6所示．

從研究?jī)?nèi)容角度看，每項(xiàng)研究?jī)?nèi)容在兩個(gè)時(shí)間段內(nèi)均有出現(xiàn)，只是強(qiáng)度不同，呈現(xiàn)出穩(wěn)中有變趨勢(shì).subject-9經(jīng)濟(jì)增長(zhǎng)歷年來(lái)都是熱門話題，subject-7大數(shù)據(jù)近5年上升態(tài)勢(shì)最為明顯.在13個(gè)研究?jī)?nèi)容中，明顯呈現(xiàn)強(qiáng)度上升態(tài)勢(shì)的主題有subject-7大數(shù)據(jù)、subject-13生態(tài)協(xié)調(diào)；呈現(xiàn)明顯強(qiáng)度減弱態(tài)勢(shì)的是subject-8時(shí)間序列、subject-9經(jīng)濟(jì)增長(zhǎng)；其余9個(gè)研究?jī)?nèi)容的主題變化趨勢(shì)不明顯.subject-7大數(shù)據(jù)強(qiáng)度趨勢(shì)呈上升態(tài)勢(shì).這是隨著2015年我國(guó)提出“國(guó)家大數(shù)據(jù)戰(zhàn)略”，學(xué)界對(duì)大數(shù)據(jù)研究越來(lái)越重視的一個(gè)積極響應(yīng).2017年，習(xí)近平總書記在十九大報(bào)告中明確提出綠水青山就是金山銀山、人和自然和諧并存的發(fā)展理念.在這種背景下，subject-13生態(tài)協(xié)調(diào)主題強(qiáng)度趨勢(shì)也呈上升態(tài)勢(shì)．

圖6 “時(shí)間-內(nèi)容-方法”共現(xiàn)網(wǎng)絡(luò)Fig.6 “Time-content-methodology” co-occurrence network

從研究方法視角看，有的研究方法在兩個(gè)時(shí)間段內(nèi)均出現(xiàn)，特別是評(píng)價(jià)體系和參數(shù)估計(jì)，在兩個(gè)時(shí)間段內(nèi)都是主流研究方法.近年來(lái)，隨著云存儲(chǔ)、分布式計(jì)算的出現(xiàn)，大數(shù)據(jù)記錄與處理技術(shù)快速發(fā)展，數(shù)據(jù)使用者可以使用hive、spark、flink對(duì)數(shù)據(jù)總體分布進(jìn)行統(tǒng)計(jì)，因此，抽樣調(diào)查主題強(qiáng)度明顯下降．

另外，機(jī)器學(xué)習(xí)主題強(qiáng)度呈現(xiàn)上升態(tài)勢(shì).機(jī)器學(xué)習(xí)作為人工智能的重要分支，是大數(shù)據(jù)領(lǐng)域最常用的研究方法.隨著數(shù)據(jù)生成速度的不斷加快，數(shù)據(jù)量空前增加，與之相對(duì)應(yīng)，各種新型數(shù)據(jù)分析方法和技術(shù)應(yīng)運(yùn)而生，包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)等，這些新技術(shù)為海量文本和圖像的處理提供支持．

4 結(jié)論

本文以1985—2020年CNKI數(shù)據(jù)庫(kù)收錄的統(tǒng)計(jì)學(xué)CSSCI期刊41 495篇文獻(xiàn)為研究對(duì)象，運(yùn)用LDA主題模型及共現(xiàn)網(wǎng)絡(luò)模型對(duì)熱門主題、演化趨勢(shì)及主流研究方法等指標(biāo)進(jìn)行分析，并繪制相關(guān)知識(shí)網(wǎng)絡(luò)圖譜.研究表明，統(tǒng)計(jì)學(xué)領(lǐng)域持續(xù)關(guān)注的熱門主題和研究方法是經(jīng)濟(jì)增長(zhǎng)、面板數(shù)據(jù)、貨幣政策、聚類分析、指標(biāo)體系等詞.近5年來(lái)研究方法上則大量采用結(jié)構(gòu)方程模型和分位數(shù)回歸法，大數(shù)據(jù)成為近年來(lái)新增的高頻詞，表明大數(shù)據(jù)成為統(tǒng)計(jì)學(xué)領(lǐng)域的新型熱點(diǎn)話題.構(gòu)建的統(tǒng)計(jì)學(xué)領(lǐng)域知識(shí)網(wǎng)絡(luò)顯示近十年的研究主題可概括為13個(gè)內(nèi)容型主題，7個(gè)方法型主題.在主題強(qiáng)度變化維度上，近5年來(lái)大數(shù)據(jù)和生態(tài)協(xié)調(diào)兩項(xiàng)研究主題強(qiáng)度上升態(tài)勢(shì)非常明顯；在方法主題維度上，抽樣調(diào)查法主題強(qiáng)度明顯下降，機(jī)器學(xué)習(xí)相關(guān)方法主題強(qiáng)度明顯上升.本文一方面是對(duì)統(tǒng)計(jì)學(xué)學(xué)科近年來(lái)的整體回顧，另一方面也是希望幫助學(xué)者把握發(fā)展趨勢(shì)，進(jìn)而輔助科研選題與決策，找到創(chuàng)新突破口，為推動(dòng)科技創(chuàng)新提供參考．

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放