亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA模型的統(tǒng)計(jì)學(xué)熱門主題挖掘及知識(shí)圖譜分析

        2022-10-20 13:21:54商慧語(yǔ)廖莉莉
        關(guān)鍵詞:領(lǐng)域文獻(xiàn)內(nèi)容

        肖 明,商慧語(yǔ),肖 毅,廖莉莉

        (1.華中師范大學(xué)信息化辦公室, 武漢 430079; 2.華中師范大學(xué)語(yǔ)言與語(yǔ)言教育研究中心, 武漢 430079;3.中原銀行數(shù)智金融創(chuàng)新實(shí)驗(yàn)室, 鄭州 450046; 4.華中師范大學(xué)信息管理學(xué)院, 武漢 430079)

        科學(xué)引文索引文獻(xiàn)作為科學(xué)技術(shù)研究成果的載體,是科研發(fā)展水平的重要體現(xiàn),又是把握學(xué)科領(lǐng)域研究現(xiàn)狀、認(rèn)識(shí)熱門話題以及了解主流研究方法的重要途徑.2016年黨中央、國(guó)務(wù)院印發(fā)《國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略綱要》強(qiáng)調(diào)科技創(chuàng)新在國(guó)家發(fā)展全局的核心位置[1].近年來(lái),文獻(xiàn)數(shù)量呈指數(shù)規(guī)模增長(zhǎng),使得通過(guò)人工閱讀方式來(lái)獲取研究領(lǐng)域的相關(guān)信息變得愈加低效和困難.科研人員如何從海量文獻(xiàn)中把握學(xué)科領(lǐng)域的前沿?zé)狳c(diǎn)主題,預(yù)測(cè)其演化趨勢(shì),進(jìn)而輔助科研選題與決策,找到創(chuàng)新突破口,推動(dòng)科技創(chuàng)新,成為統(tǒng)計(jì)學(xué)界關(guān)注的一個(gè)重要研究方向.本文利用統(tǒng)計(jì)學(xué)與NLP方法對(duì)統(tǒng)計(jì)學(xué)領(lǐng)域CSSCI期刊上的文獻(xiàn)進(jìn)行主題模型分析,通過(guò)信息抽取和整理歸納,得到統(tǒng)計(jì)學(xué)領(lǐng)域相關(guān)知識(shí)網(wǎng)絡(luò)圖譜,助力科研人員迅速了解統(tǒng)計(jì)學(xué)科的研究狀況,提高研究效率.

        關(guān)于主題模型的方法,國(guó)內(nèi)外已有一些研究基礎(chǔ).國(guó)外主題模型的研究起源于Papadimitriou等[2]提出的隱性語(yǔ)義索引(LSI).隱性語(yǔ)義索引的基本思想是通過(guò)奇異值分解(SVD)構(gòu)造一個(gè)維度比原空間低的全新的隱性語(yǔ)義空間,從而找到文本更簡(jiǎn)單的表達(dá)方式;Hofmann[3]在LSI的基礎(chǔ)上進(jìn)一步提出了概率隱性語(yǔ)義索引(pLSI),不同于LSI以最優(yōu)低秩逼近作為優(yōu)化目標(biāo),pLSI將觀測(cè)值的似然值作為優(yōu)化目標(biāo)并使其最大化;2003年,Blei等[4]基于貝葉斯思想提出了隱含狄利克雷分布(LDA),將pLSI中待估參數(shù)視為隨機(jī)變量,對(duì)其施加Dirichlet先驗(yàn)分布,并通過(guò)最大后驗(yàn)估計(jì)進(jìn)行推斷;AlSumait等[5]提出在線LDA(online latent Dirichlet allocation, OLDA)模型,通過(guò)演化矩陣記錄已有主題,檢測(cè)新主題,根據(jù)到達(dá)的文本在線更新模型,用來(lái)表示主題內(nèi)容和強(qiáng)度的演化,但是忽略了文本量對(duì)主題數(shù)量的影響.因此,LDA在主題內(nèi)容分析上比pLSI更加合理有效.

        對(duì)于各學(xué)科進(jìn)行文獻(xiàn)計(jì)量分析的研究,已經(jīng)取得了非常豐富的成果.針對(duì)期刊的個(gè)案研究有,仇一微等[6]和汪琛等[7]對(duì)期刊《統(tǒng)計(jì)與決策》的歷年文獻(xiàn)進(jìn)行了計(jì)量分析,發(fā)現(xiàn)領(lǐng)域內(nèi)合作研究不斷交叉和演化.在統(tǒng)計(jì)學(xué)領(lǐng)域的文獻(xiàn)計(jì)量分析方面.2012年,楊國(guó)立[8]考察了1998—2010年統(tǒng)計(jì)學(xué)研究機(jī)構(gòu)、被引頻次、高產(chǎn)作者、高產(chǎn)機(jī)構(gòu)的分布情況;2019年,韓兆洲等[9]利用編程語(yǔ)言R分析了統(tǒng)計(jì)學(xué)核心期刊的分布情況和研究現(xiàn)狀.在圖書情報(bào)學(xué)領(lǐng)域的文獻(xiàn)計(jì)量分析方面,2018年,朱茂然等[10]通過(guò)相似主題下的詞匯概率分布得到主題內(nèi)容的變化,運(yùn)用在中文情報(bào)學(xué)領(lǐng)域,發(fā)現(xiàn)“語(yǔ)義分析”等主題的關(guān)注度持續(xù)上升;2021年,譚春輝等[11]采用近20年來(lái)CKNI及Web of Science收錄的數(shù)據(jù)挖掘領(lǐng)域核心期刊論文,通過(guò)LDA主題模型分析國(guó)內(nèi)外該領(lǐng)域熱點(diǎn)主題演化的區(qū)別與聯(lián)系;2021年,張金年等[12]以2017—2019年圖書館學(xué)領(lǐng)域7本CSSCI來(lái)源期刊論文為研究對(duì)象,發(fā)現(xiàn)有72位潛在合作者,8個(gè)潛在合作團(tuán)隊(duì),1個(gè)整體合作中心和多個(gè)區(qū)域合作中心,而潛在合作主題為7大類.此外,在其他學(xué)科領(lǐng)域有,呂拉昌等[13]借助文獻(xiàn)計(jì)量工具,發(fā)現(xiàn)區(qū)域創(chuàng)新系統(tǒng)與大數(shù)據(jù)等前沿技術(shù)融合的趨勢(shì)較為明顯,未來(lái)區(qū)域創(chuàng)新系統(tǒng)的研究將趨向于多視角、多尺度、多學(xué)科,注重創(chuàng)新主體及創(chuàng)新行為、創(chuàng)新主體與創(chuàng)新環(huán)境的耦合研究;邱均平等[14]分析CNKI收錄的近10年關(guān)于大數(shù)據(jù)的論文,通過(guò)LDA主題模型能夠較為準(zhǔn)確地提取大數(shù)據(jù)領(lǐng)域文獻(xiàn)的研究主題,有利于研究人員把握研究方向,探尋新興主題;周健等[15]通過(guò)LDA主題模型對(duì)不同時(shí)間窗口下的區(qū)塊鏈文獻(xiàn)進(jìn)行挖掘,引入新穎度指標(biāo)和熱度指標(biāo)來(lái)識(shí)別熱點(diǎn)主題,挖掘出區(qū)塊鏈研究主題及熱點(diǎn)分布.還有部分學(xué)者在研究如何提高分類準(zhǔn)確率,代表性的成果有,郭劍飛[16]采用多個(gè)LDA模型來(lái)增強(qiáng)主題完備性,提升了分類準(zhǔn)確率與穩(wěn)定性;李湘東等[17]考察基于加權(quán)的LDA方法,結(jié)合k近鄰和支持向量機(jī)等算法,提高主題獲取的準(zhǔn)確率;張金柱等[18]探討依存句法抽取短語(yǔ)構(gòu)建短語(yǔ)序列,并結(jié)合向量聚類方法分析研究相似度與潛在合作網(wǎng)絡(luò),結(jié)果可讀性和解釋性更強(qiáng);朱光等[19]利用LDA模型和長(zhǎng)短期記憶模型的關(guān)聯(lián)預(yù)測(cè)方法,可以更準(zhǔn)確挖掘研究主題,分析主題關(guān)聯(lián)關(guān)系;關(guān)鵬等[20]等發(fā)現(xiàn)摘要和關(guān)鍵詞+摘要作為語(yǔ)料的LDA主題抽取的效果均優(yōu)于關(guān)鍵詞作為語(yǔ)料的LDA主題抽取效果;阮光冊(cè)等[21]發(fā)現(xiàn)結(jié)合詞權(quán)重的LDA模型,具有更好的模型擬合度和主題的語(yǔ)義區(qū)分度;李賀等[22]利用LDA模型與Kano模型設(shè)置用戶需求調(diào)查問(wèn)卷,結(jié)合用戶滿意指數(shù)分析各項(xiàng)需求對(duì)用戶滿意度的影響,更有效克服傳統(tǒng)用戶需求調(diào)查方法中存在的需求來(lái)源滯后及可靠性不足等問(wèn)題.

        綜上,上述文章對(duì)研究熱點(diǎn)進(jìn)行分析多采用文獻(xiàn)計(jì)量方法,而運(yùn)用LDA主題模型和“摘要+關(guān)鍵詞”分析統(tǒng)計(jì)學(xué)文獻(xiàn)的熱門主題的文章極少.為適應(yīng)當(dāng)前文獻(xiàn)數(shù)量大幅度增加的現(xiàn)狀,本文試圖基于LDA模型,以統(tǒng)計(jì)學(xué)CSSCI期刊為數(shù)據(jù)來(lái)源分析統(tǒng)計(jì)學(xué)學(xué)科熱門主題、演化趨勢(shì)及主流研究方法.

        1 研究方法

        LDA在主題模型中占有非常重要的地位,常用來(lái)對(duì)文本進(jìn)行分類.以下基于LDA模型來(lái)闡述本文的具體研究方法.

        1.1 LDA主題模型

        LDA作為主題生成模型的一種,意味著文章中的每一個(gè)詞的生成過(guò)程相同,均是文檔先以一定的概率分布挑選一個(gè)主題,接著,該主題又以一定的概率分布生成某一個(gè)詞語(yǔ),如此循環(huán)往復(fù).文檔生成主題屬于多項(xiàng)式分布,主題生成詞語(yǔ)也屬于多項(xiàng)式分布.隱含狄利克雷分布模型的終極目標(biāo)就是找到主題集合,接著把詞-文檔概率分布變成主題-文檔概率分布和詞-主題概率分布.

        1.2 Collapsed Gibbs Sampling參數(shù)估計(jì)

        關(guān)于隱含狄利克雷分布模型的參數(shù)估計(jì)方式,本文綜合考慮其復(fù)雜性、準(zhǔn)確性及可操作性,采用Collapsed Gibbs Sampling算法,即主題-文檔概率分布和詞-主題概率分布.利用積分避開待估計(jì)的主題-文檔概率分布θ和詞-主題概率分布φ.一旦知道了每個(gè)詞所屬的主題,就可以通過(guò)統(tǒng)計(jì)頻數(shù)的方式計(jì)算待估計(jì)的主題-文檔概率分布θ和詞-主題概率分布φ.本文采用馬氏鏈蒙特卡羅方法(MCMC)分解問(wèn)題,一次只采樣一個(gè)因變量,采樣公式的最終形式可推導(dǎo)為式(1):

        (1)

        其中,假設(shè)wi=t,zi表示第i個(gè)單詞所歸屬的主題類別;i表示提取第i項(xiàng);表示k主題中詞項(xiàng)v的出現(xiàn)頻次;βv表示詞項(xiàng)v的Dirichlet先驗(yàn);表示文檔m中主題z的出現(xiàn)頻次;αz表示主題z的Dirichlet先驗(yàn).

        當(dāng)?shù)弥總€(gè)單詞w的主題z的編號(hào),則可按下式計(jì)算相關(guān)參數(shù):

        (2)

        (3)

        其中,φk,t表示主題k中出現(xiàn)詞語(yǔ)t的概率;θm, k表示文獻(xiàn)m中主題k所占的比重,若每個(gè)單詞的主題標(biāo)簽明確,代入公式(2)、公式(3)即可完成參數(shù)估計(jì).

        1.3 確定主題個(gè)數(shù)

        LDA主題數(shù)的確定依據(jù)困惑度理論.可用困惑度衡量隱含狄利克雷分布模型擬合的好壞,困惑度越小,擬合度越高.文檔生成模型視為詞在句子中某個(gè)位置的概率分布,表示每一個(gè)詞在此位置出現(xiàn)的概率.

        (4)

        2 數(shù)據(jù)來(lái)源與處理

        2.1 數(shù)據(jù)來(lái)源

        實(shí)驗(yàn)數(shù)據(jù)通過(guò)Python 3.6爬取自中國(guó)知網(wǎng)中的統(tǒng)計(jì)學(xué)類CSSCI期刊《統(tǒng)計(jì)研究》《統(tǒng)計(jì)與信息論壇》《數(shù)理統(tǒng)計(jì)與管理》《統(tǒng)計(jì)與決策》創(chuàng)辦至今發(fā)布過(guò)的全部文章,共獲取文獻(xiàn)43 001篇.去除與統(tǒng)計(jì)學(xué)專業(yè)知識(shí)無(wú)關(guān)的刊文后保留文獻(xiàn)41 495篇,保留率約96.5%.其中,取自《統(tǒng)計(jì)研究》(5 709篇)占比約13.76%;《統(tǒng)計(jì)與決策》(27 780篇)占比約66.95%;《數(shù)理統(tǒng)計(jì)與管理》(3 771篇)占比約9.09%;《統(tǒng)計(jì)與信息論壇》(4 235篇)占比約10.21%.相關(guān)字段為九個(gè),分別是標(biāo)題、關(guān)鍵字、摘要、作者、作者機(jī)構(gòu)、引用數(shù)、下載數(shù)、出版年月、所屬期刊.

        2.2 數(shù)據(jù)處理

        本研究使用摘要作為語(yǔ)料進(jìn)行實(shí)驗(yàn).從實(shí)驗(yàn)的可操作性及期刊的主題可比較性出發(fā),選取2007年1月至2020年12月發(fā)布的文章,刪除期刊導(dǎo)讀、書評(píng)、投稿須知、啟事、公告、編讀往來(lái)、簡(jiǎn)訊、答疑、選題方向等無(wú)摘要的文獻(xiàn)后保留文獻(xiàn)26 397篇(其中《統(tǒng)計(jì)研究》2 830篇,《統(tǒng)計(jì)與決策》18 838篇,《數(shù)理統(tǒng)計(jì)與管理》1 759篇,《統(tǒng)計(jì)與信息論壇》2 970篇).

        首先對(duì)原始語(yǔ)料庫(kù)進(jìn)行預(yù)處理.用jieba分詞庫(kù)把一句話切分成若干個(gè)詞語(yǔ),采用停用詞及自定義字典兩種方式進(jìn)行文本整體去噪和分詞去噪,然后統(tǒng)一轉(zhuǎn)換為易于理解的向量空間模型.

        2.3 主題數(shù)目確定和主題標(biāo)簽標(biāo)注

        借助math庫(kù)的自定義函數(shù)計(jì)算困惑度[23],獲取“文檔摘要-表征詞”的稀疏表征、主題數(shù)量以及模型擬合結(jié)果.經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn)主題數(shù)量為20時(shí)最符合“統(tǒng)計(jì)學(xué)”的實(shí)驗(yàn)?zāi)P?,每個(gè)主題由高比率表征詞按比率從大到小依次排列組成,它們共同代表了這一主題的主旨含義.邀請(qǐng)兩位同行專家在多次協(xié)商后分別對(duì)每個(gè)主題用統(tǒng)計(jì)學(xué)領(lǐng)域代表性術(shù)語(yǔ)對(duì)各個(gè)主題進(jìn)行標(biāo)簽標(biāo)注.并將抽取出的20個(gè)研究主題分為13個(gè)內(nèi)容型主題(topic-1到 topic-13)和7個(gè)方法型主題(topic-14到 topic-20),如表1所示.

        表1 主題屬性分類與主題表征詞展示Tab.1 Topic attribute classification and topic epithet display

        續(xù)表1

        2.4 主題模型評(píng)價(jià)

        從表征詞覆蓋率(即每個(gè)表征詞的概率和)對(duì)各個(gè)主題進(jìn)行評(píng)價(jià),以了解模型的優(yōu)劣.高質(zhì)量主題的表征詞詞頻概率分布一般表現(xiàn)為嚴(yán)重的偏斜狀態(tài),較少的核心詞以高概率出現(xiàn),其他絕大多數(shù)詞語(yǔ)出現(xiàn)的概率很小.而低質(zhì)量主題的表征詞一般由若干隨機(jī)單詞構(gòu)成,且每個(gè)詞的出現(xiàn)概率較小,很難找到核心表征詞主題.所以,可以根據(jù)表征詞的覆蓋率對(duì)主題的質(zhì)量進(jìn)行篩選.設(shè)Pij是第i個(gè)主題的第j個(gè)表征詞出現(xiàn)的概率,可將第i個(gè)topic的前m個(gè)詞的概率和Coverage(i,m)定義為:

        (5)

        本文選取m=20時(shí)的表征詞覆蓋率.在爬取的字段中,“引用數(shù)”與“下載數(shù)”為數(shù)值型數(shù)據(jù),可以直接分析使用;“關(guān)鍵詞”與“作者機(jī)構(gòu)”存儲(chǔ)在列表中,為半結(jié)構(gòu)化數(shù)據(jù),通過(guò)切分計(jì)數(shù)可衍生數(shù)值型特征(如關(guān)鍵詞出現(xiàn)頻次,關(guān)鍵詞-作者機(jī)構(gòu)共現(xiàn)頻次);“標(biāo)題”與“摘要”屬于非結(jié)構(gòu)化文本數(shù)據(jù).本研究基于以上三類數(shù)據(jù),對(duì)統(tǒng)計(jì)學(xué)期刊的關(guān)鍵詞分布進(jìn)行對(duì)比分析.

        3 統(tǒng)計(jì)學(xué)知識(shí)網(wǎng)絡(luò)分析

        3.1 統(tǒng)計(jì)學(xué)關(guān)鍵詞分布

        從關(guān)鍵詞維度看,四大期刊創(chuàng)辦至今涉及關(guān)鍵詞3.4萬(wàn)個(gè),其中2007—2013年統(tǒng)計(jì)學(xué)的熱門關(guān)鍵詞如圖1所示,2014—2020年統(tǒng)計(jì)學(xué)的熱門關(guān)鍵詞分布如圖2所示.兩張圖中均出現(xiàn)經(jīng)濟(jì)增長(zhǎng)、面板數(shù)據(jù)、貨幣政策、聚類分析、指標(biāo)體系等詞,表明這些詞是統(tǒng)計(jì)學(xué)領(lǐng)域持續(xù)的熱門話題和主流方法.根據(jù)2007—2013年的關(guān)鍵詞,前7年統(tǒng)計(jì)學(xué)的研究熱點(diǎn)集中在國(guó)內(nèi)生產(chǎn)總值、時(shí)間序列預(yù)測(cè)及金融產(chǎn)品的組合投資方面;最常使用的方法是GM(灰色模型法)、VaR(風(fēng)險(xiǎn)價(jià)值模型)和連接函數(shù).而2014—2020年的統(tǒng)計(jì)學(xué)研究熱點(diǎn)不只是集中在國(guó)內(nèi)生產(chǎn)總值的預(yù)測(cè),更重要的是注重宏觀貨幣調(diào)控、產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化及產(chǎn)業(yè)附加值提高.在研究方法上則大量采用結(jié)構(gòu)方程模型或分位數(shù)回歸法.此外,大數(shù)據(jù)成為近年來(lái)新增的高頻詞,表明大數(shù)據(jù)成為了統(tǒng)計(jì)學(xué)領(lǐng)域的新型熱點(diǎn)話題,揭示了統(tǒng)計(jì)學(xué)學(xué)科未來(lái)的研究走向.

        圖1 2007—2013年統(tǒng)計(jì)學(xué)熱門關(guān)鍵詞分布Fig.1 Distribution of popular keywords in statistics from 2007 to 2013

        圖2 2014—2020年統(tǒng)計(jì)學(xué)熱門關(guān)鍵詞分布Fig.2 Distribution of popular keywords in statistics from 2014 to 2020

        3.2 “內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)

        利用LDA潛在主題模型對(duì)預(yù)處理后的語(yǔ)料庫(kù)進(jìn)行聚類,經(jīng)過(guò)Python編程共提煉出20個(gè)主題集群(topic-m),將這些主題集群進(jìn)一步拆分為13個(gè)研究?jī)?nèi)容主題(subject-p)和7個(gè)研究方法主題(method-q).將基于subject-p與method-q在每篇文獻(xiàn)中的共現(xiàn)關(guān)系,建立“subject-method”鄰接矩陣,并進(jìn)行“subject-method”二模網(wǎng)絡(luò)的可視化分析.

        3.2.1 “內(nèi)容-方法”二模網(wǎng)絡(luò) 二模網(wǎng)絡(luò)是描述兩種異質(zhì)數(shù)據(jù)之間關(guān)系的網(wǎng)絡(luò).設(shè)S=(s1,s2,…,sp)表示統(tǒng)計(jì)學(xué)領(lǐng)域的“研究?jī)?nèi)容”數(shù)據(jù)集,p=13;M=(m1,m2,…,mq)表示統(tǒng)計(jì)學(xué)領(lǐng)域的“研究方法”數(shù)據(jù)集,q=7;G=(g1,g2,…,gp),其中g(shù)p=(g1n,g2n,…,gqp)表示各研究方法和研究?jī)?nèi)容共現(xiàn)的文獻(xiàn)集合數(shù).

        圖3中共有節(jié)點(diǎn)20個(gè),邊31條.其中,紅色圓點(diǎn)表示研究方法(method),灰色圓點(diǎn)表示研究?jī)?nèi)容(subject).與此節(jié)點(diǎn)相連的邊的數(shù)目稱為“度”,“度”越大,圓點(diǎn)越大,表示該研究方法更具普適性或者該研究?jī)?nèi)容為熱門問(wèn)題.邊的粗細(xì)與該研究方法和研究?jī)?nèi)容的共現(xiàn)次數(shù)呈正比關(guān)系,觀察粗邊,可挖掘統(tǒng)計(jì)學(xué)最熱門的研究方法及應(yīng)用最廣泛的領(lǐng)域.統(tǒng)計(jì)學(xué)領(lǐng)域?qū)W者的熱門研究話題及典型研究方法的“內(nèi)容-方法”二模網(wǎng)絡(luò)如圖3所示.

        圖3 “內(nèi)容-方法”二模網(wǎng)絡(luò)Fig.3 “Content-method” 2-mode network

        3.2.2 一種研究方法對(duì)應(yīng)多項(xiàng)研究?jī)?nèi)容 由圖3可知,較大的method節(jié)點(diǎn)包括method-1評(píng)價(jià)體系、method-2抽樣調(diào)查,并且,這兩個(gè)節(jié)點(diǎn)與周邊研究?jī)?nèi)容連線最多,表明其是統(tǒng)計(jì)學(xué)研究領(lǐng)域中最常被采用的研究方法.

        method-1評(píng)價(jià)體系被用于10項(xiàng)研究?jī)?nèi)容,其中,subject-9經(jīng)濟(jì)增長(zhǎng)與subject-6企業(yè)管理與該方法連線較粗,表明method-1評(píng)價(jià)體系在統(tǒng)計(jì)學(xué)77%以上的領(lǐng)域均具有適用性,這與統(tǒng)計(jì)目標(biāo)多為評(píng)估某一政策或某一行為緊密相關(guān).

        method-2抽樣調(diào)查被用于8項(xiàng)研究?jī)?nèi)容.由于總體樣本太大或者實(shí)驗(yàn)破壞性強(qiáng),普查不太現(xiàn)實(shí),所以抽樣調(diào)查一直受到傳統(tǒng)統(tǒng)計(jì)學(xué)的青睞,并借助低成本、高成效的優(yōu)勢(shì)成為統(tǒng)計(jì)學(xué)領(lǐng)域主流的研究方法.

        3.2.3 一項(xiàng)研究?jī)?nèi)容對(duì)應(yīng)多種研究方法 圖3中,各主題節(jié)點(diǎn)(subject)的大小相似,即與各研究?jī)?nèi)容耦合的研究方法數(shù)目相近,每個(gè)研究主題對(duì)應(yīng)的研究方法約為2~3個(gè).subject-7大數(shù)據(jù)與周圍method的連線最多,包括機(jī)器學(xué)習(xí)、模型改進(jìn)、聚類分析、求最優(yōu)解4種方法.對(duì)大數(shù)據(jù)相關(guān)問(wèn)題的大量研究與近年來(lái)海量數(shù)據(jù)的出現(xiàn)有關(guān),不只是結(jié)構(gòu)化數(shù)據(jù),更多的是半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù).近年來(lái)各類深度學(xué)習(xí)算法、遺傳算法及傳統(tǒng)因子分析、主成分分析的應(yīng)用實(shí)踐是當(dāng)代科研人員急于體現(xiàn)大數(shù)據(jù)價(jià)值的表現(xiàn).

        從圖3還可看出, subject-1生產(chǎn)效率對(duì)應(yīng)研究方法有評(píng)價(jià)體系、模型改進(jìn)、最優(yōu)解3種;subject-2金融風(fēng)險(xiǎn)對(duì)應(yīng)的研究方法有評(píng)價(jià)體系、抽樣調(diào)查、最優(yōu)解3種;subject-3貨幣政策對(duì)應(yīng)的研究方法有評(píng)價(jià)體系、模型改進(jìn)2種;subject-4居民消費(fèi)、subject-6企業(yè)管理、subject-9經(jīng)濟(jì)增長(zhǎng)對(duì)應(yīng)的研究方法都有評(píng)價(jià)體系、抽樣調(diào)查2種.

        3.3 “作者-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)構(gòu)建與分析

        “作者-內(nèi)容-方法”共現(xiàn)是指不同作者的論文其內(nèi)容和方法高度一致.在一個(gè)數(shù)據(jù)集合內(nèi),不同的作者使用的相同主題(topic)越多,則表明他們的研究?jī)?nèi)容越相似;反之,如果某個(gè)主題僅個(gè)別作者討論,則表明其研究?jī)?nèi)容較為獨(dú)特.

        本次實(shí)驗(yàn)共涉及1.5萬(wàn)人次作者,依據(jù)普賴斯公式確定候選核心作者.來(lái)自暨南大學(xué)的韓兆洲教授發(fā)表CSSCI論文最多,累計(jì)發(fā)文59篇,即nmax=59.通過(guò)普萊斯公式可得最低發(fā)文量為M=5.75,表明發(fā)表文獻(xiàn)6篇及以上的作者為候選核心作者,總計(jì)540位.考慮到候選作者數(shù)目較多,為使結(jié)果展示更加清晰明確,本次實(shí)驗(yàn)限制發(fā)文數(shù)在20篇以上,滿足該條件的作者有35人,涉及文獻(xiàn)1 031篇.構(gòu)建的“作者-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)如圖4所示.

        圖4 “作者-方法-內(nèi)容”多重共現(xiàn)網(wǎng)絡(luò)Fig.4 “Author-methodology-content” co-occurrence network

        圖4中共有節(jié)點(diǎn)55個(gè)(包括35個(gè)作者節(jié)點(diǎn)、13個(gè)研究?jī)?nèi)容節(jié)點(diǎn)、7個(gè)研究方法節(jié)點(diǎn)),邊143條.紅色圓點(diǎn)表示作者節(jié)點(diǎn),灰色圓點(diǎn)表示主題節(jié)點(diǎn).度表示與此節(jié)點(diǎn)相連邊的數(shù)目,度越大,則圓點(diǎn)面積越大,表明該作者涉獵的研究面越廣.邊的粗細(xì)與該作者在該研究主題下發(fā)表過(guò)的文獻(xiàn)數(shù)目成正比,邊越粗,也表示該作者越擅長(zhǎng)此領(lǐng)域的研究?jī)?nèi)容或研究方法.由于圖4中的節(jié)點(diǎn)較多,不易觀察,剔除“作者-內(nèi)容-方法”共現(xiàn)頻次≤5次的節(jié)點(diǎn)及邊,并將研究?jī)?nèi)容全部置于左邊,研究方法置于右邊,作者節(jié)點(diǎn)置于中間,精煉版的“作者-方法-內(nèi)容”共現(xiàn)網(wǎng)絡(luò)如圖5所示.

        圖5 “作者-方法-內(nèi)容”共現(xiàn)網(wǎng)絡(luò)(精煉版)Fig.5 “Author-methodology-content” co-occurrence network(optimized version)

        依據(jù)圓點(diǎn)大小,涉及研究范圍較廣的學(xué)者有暨南大學(xué)韓兆洲和劉建平、廈門大學(xué)朱建平、中國(guó)人民大學(xué)金勇進(jìn)、中國(guó)人民大學(xué)孟生旺.從研究?jī)?nèi)容來(lái)看,subject-7大數(shù)據(jù)和subject-8時(shí)間序列領(lǐng)域的引領(lǐng)研究學(xué)者為朱建平,subject-3貨幣政策的引領(lǐng)學(xué)者為許滌龍,且其慣用研究方法為method-1評(píng)價(jià)體系法;subject-6企業(yè)管理領(lǐng)域的代表研究者為孟生旺,subject-9經(jīng)濟(jì)增長(zhǎng)領(lǐng)域的代表科研人員為劉建平.從研究方法來(lái)看,method-1評(píng)價(jià)體系法及method-2抽樣調(diào)查法仍是Top熱門作者最慣用的研究手段,與上節(jié)“內(nèi)容-方法”二模共現(xiàn)網(wǎng)絡(luò)分析結(jié)論呈現(xiàn)一致性.

        從作者角度出發(fā),依據(jù)邊的粗細(xì),可以揭示“作者-內(nèi)容-方法”隱性關(guān)聯(lián)組.比如關(guān)聯(lián)組“許滌龍-subject-3貨幣政策-method-1評(píng)價(jià)體系”“朱建平-subject-7大數(shù)據(jù)-method-6機(jī)器學(xué)習(xí)”等.據(jù)此關(guān)聯(lián)組可得到,許滌龍常用評(píng)價(jià)體系法研究貨幣政策相關(guān)問(wèn)題,朱建平常用機(jī)器學(xué)習(xí)相關(guān)方法研究大數(shù)據(jù)領(lǐng)域問(wèn)題.由此可方便研究人員了解統(tǒng)計(jì)學(xué)各領(lǐng)域的熱門研究方法及領(lǐng)軍學(xué)者,節(jié)省研究前人成果的時(shí)間.

        3.4 “時(shí)間-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò)構(gòu)建與分析

        統(tǒng)計(jì)學(xué)的四大CSSCI期刊自創(chuàng)刊以來(lái),其研究范疇及應(yīng)用領(lǐng)域隨著時(shí)代的發(fā)展呈現(xiàn)出不同的特點(diǎn).本節(jié)將15年的刊文分為兩個(gè)時(shí)間段(2007—2013年和2014—2020年),采用與上節(jié)相同的方式構(gòu)建“時(shí)間-內(nèi)容-方法”多重共現(xiàn)網(wǎng)絡(luò),以此反映統(tǒng)計(jì)學(xué)領(lǐng)域各主題強(qiáng)度的變化趨勢(shì).

        依據(jù)LDA潛在主題模型可確定每篇文獻(xiàn)的出版時(shí)間與其所屬研究?jī)?nèi)容類別、研究方法類別的對(duì)應(yīng)關(guān)系.統(tǒng)計(jì)“時(shí)間-內(nèi)容”“時(shí)間-方法”的共現(xiàn)頻次后,可得“時(shí)間-內(nèi)容”共現(xiàn)矩陣及“時(shí)間-方法”共現(xiàn)矩陣.構(gòu)建的“時(shí)間-內(nèi)容-方法”三模共現(xiàn)網(wǎng)絡(luò)如圖6所示.

        從研究?jī)?nèi)容角度看,每項(xiàng)研究?jī)?nèi)容在兩個(gè)時(shí)間段內(nèi)均有出現(xiàn),只是強(qiáng)度不同,呈現(xiàn)出穩(wěn)中有變趨勢(shì).subject-9經(jīng)濟(jì)增長(zhǎng)歷年來(lái)都是熱門話題,subject-7大數(shù)據(jù)近5年上升態(tài)勢(shì)最為明顯.在13個(gè)研究?jī)?nèi)容中,明顯呈現(xiàn)強(qiáng)度上升態(tài)勢(shì)的主題有subject-7大數(shù)據(jù)、subject-13生態(tài)協(xié)調(diào);呈現(xiàn)明顯強(qiáng)度減弱態(tài)勢(shì)的是subject-8時(shí)間序列、subject-9經(jīng)濟(jì)增長(zhǎng);其余9個(gè)研究?jī)?nèi)容的主題變化趨勢(shì)不明顯.subject-7大數(shù)據(jù)強(qiáng)度趨勢(shì)呈上升態(tài)勢(shì).這是隨著2015年我國(guó)提出“國(guó)家大數(shù)據(jù)戰(zhàn)略”,學(xué)界對(duì)大數(shù)據(jù)研究越來(lái)越重視的一個(gè)積極響應(yīng).2017年,習(xí)近平總書記在十九大報(bào)告中明確提出綠水青山就是金山銀山、人和自然和諧并存的發(fā)展理念.在這種背景下,subject-13生態(tài)協(xié)調(diào)主題強(qiáng)度趨勢(shì)也呈上升態(tài)勢(shì).

        圖6 “時(shí)間-內(nèi)容-方法”共現(xiàn)網(wǎng)絡(luò)Fig.6 “Time-content-methodology” co-occurrence network

        從研究方法視角看,有的研究方法在兩個(gè)時(shí)間段內(nèi)均出現(xiàn),特別是評(píng)價(jià)體系和參數(shù)估計(jì),在兩個(gè)時(shí)間段內(nèi)都是主流研究方法.近年來(lái),隨著云存儲(chǔ)、分布式計(jì)算的出現(xiàn),大數(shù)據(jù)記錄與處理技術(shù)快速發(fā)展,數(shù)據(jù)使用者可以使用hive、spark、flink對(duì)數(shù)據(jù)總體分布進(jìn)行統(tǒng)計(jì),因此,抽樣調(diào)查主題強(qiáng)度明顯下降.

        另外,機(jī)器學(xué)習(xí)主題強(qiáng)度呈現(xiàn)上升態(tài)勢(shì).機(jī)器學(xué)習(xí)作為人工智能的重要分支,是大數(shù)據(jù)領(lǐng)域最常用的研究方法.隨著數(shù)據(jù)生成速度的不斷加快,數(shù)據(jù)量空前增加,與之相對(duì)應(yīng),各種新型數(shù)據(jù)分析方法和技術(shù)應(yīng)運(yùn)而生,包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)等,這些新技術(shù)為海量文本和圖像的處理提供支持.

        4 結(jié)論

        本文以1985—2020年CNKI數(shù)據(jù)庫(kù)收錄的統(tǒng)計(jì)學(xué)CSSCI期刊41 495篇文獻(xiàn)為研究對(duì)象,運(yùn)用LDA主題模型及共現(xiàn)網(wǎng)絡(luò)模型對(duì)熱門主題、演化趨勢(shì)及主流研究方法等指標(biāo)進(jìn)行分析,并繪制相關(guān)知識(shí)網(wǎng)絡(luò)圖譜.研究表明,統(tǒng)計(jì)學(xué)領(lǐng)域持續(xù)關(guān)注的熱門主題和研究方法是經(jīng)濟(jì)增長(zhǎng)、面板數(shù)據(jù)、貨幣政策、聚類分析、指標(biāo)體系等詞.近5年來(lái)研究方法上則大量采用結(jié)構(gòu)方程模型和分位數(shù)回歸法,大數(shù)據(jù)成為近年來(lái)新增的高頻詞,表明大數(shù)據(jù)成為統(tǒng)計(jì)學(xué)領(lǐng)域的新型熱點(diǎn)話題.構(gòu)建的統(tǒng)計(jì)學(xué)領(lǐng)域知識(shí)網(wǎng)絡(luò)顯示近十年的研究主題可概括為13個(gè)內(nèi)容型主題,7個(gè)方法型主題.在主題強(qiáng)度變化維度上,近5年來(lái)大數(shù)據(jù)和生態(tài)協(xié)調(diào)兩項(xiàng)研究主題強(qiáng)度上升態(tài)勢(shì)非常明顯;在方法主題維度上,抽樣調(diào)查法主題強(qiáng)度明顯下降,機(jī)器學(xué)習(xí)相關(guān)方法主題強(qiáng)度明顯上升.本文一方面是對(duì)統(tǒng)計(jì)學(xué)學(xué)科近年來(lái)的整體回顧,另一方面也是希望幫助學(xué)者把握發(fā)展趨勢(shì),進(jìn)而輔助科研選題與決策,找到創(chuàng)新突破口,為推動(dòng)科技創(chuàng)新提供參考.

        猜你喜歡
        領(lǐng)域文獻(xiàn)內(nèi)容
        內(nèi)容回顧溫故知新
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
        3D 打?。合冗M(jìn)制造領(lǐng)域的必爭(zhēng)之地
        杭州科技(2013年5期)2013-03-11 16:40:59
        3d动漫精品啪啪一区二区下载| 丝袜美腿亚洲第一免费| 伊人久久大香线蕉综合av| 国内自拍偷国视频系列| 亚洲av无码专区在线观看成人 | 99福利网| 国产精品农村妇女一区二区三区 | 中文字幕亚洲精品一二三区| 国产一区二区三区激情视频| 亚洲妇女无套内射精| 国产最新地址| av资源吧首页在线观看| 一区二区精品国产亚洲| 国产97色在线 | 日韩| 亚洲久无码中文字幕热| 天堂av一区二区在线| 免费a级毛片在线播放| 国产呦系列呦交| 2020亚洲国产| 日本午夜艺术一区二区| 亚洲成av人在线播放无码| 国产精品一区二区久久| 无人视频在线播放在线观看免费| 国产女同va一区二区三区| 无人视频在线观看免费播放影院| 啪啪无码人妻丰满熟妇| 精品在线亚洲一区二区三区| 国产精品免费一区二区三区四区| 欧美性狂猛xxxxx深喉| 国内精品91久久久久| 在线观看国产白浆一区三区| 人人妻人人爽人人澡欧美一区| 日韩我不卡| 日韩人妻大奶子生活片| 少妇被爽到高潮喷水久久欧美精品 | 国产精品国产三级国产av品爱网| 欧美黑人疯狂性受xxxxx喷水| 精品国产自拍在线视频| 白白发在线视频免费观看2| 亚洲av无码国产综合专区| 明星性猛交ⅹxxx乱大交|