趙 娜,羅 霜
北京師范大學(xué),北京100875
2017年12月,習(xí)近平總書記在主持中共中央政治局第二次集體學(xué)習(xí)時指出:“大數(shù)據(jù)是信息化發(fā)展的新階段。隨著信息技術(shù)和人類生產(chǎn)生活交匯融合,互聯(lián)網(wǎng)快速普及,全球數(shù)據(jù)呈現(xiàn)爆發(fā)增長、海量集聚的特點(diǎn),對經(jīng)濟(jì)發(fā)展、社會治理、國家管理、人民生活都產(chǎn)生了重大影響?!盵1]大數(shù)據(jù)改變了人類世界,改變了人類理解世界的方式,也改變了學(xué)術(shù)研究的思維與視角。結(jié)合黨建研究并選取特定的主題,通過選取相應(yīng)的統(tǒng)計(jì)分析軟件進(jìn)行知識單元統(tǒng)計(jì)與網(wǎng)絡(luò)分析,對于探析大數(shù)據(jù)背景下黨建研究方法的運(yùn)用與創(chuàng)新具有一定意義。
大數(shù)據(jù)是信息化發(fā)展的新階段。從大數(shù)據(jù)自身維度來看,大數(shù)據(jù)是特定的數(shù)據(jù)科學(xué);從大數(shù)據(jù)支撐維度來看,大數(shù)據(jù)是一種技術(shù)平臺;從大數(shù)據(jù)工具維度來看,大數(shù)據(jù)是一種研究方法;從大數(shù)據(jù)價值維度來看,大數(shù)據(jù)是一種潛在資源。無論從何種角度出發(fā)給出多少種定義,大數(shù)據(jù)都包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具有的“大量”“高速”“多樣”“低價值密度”“真實(shí)性”等特征已成為共識。與大數(shù)據(jù)相伴的,是大數(shù)據(jù)的存儲技術(shù)、生產(chǎn)技術(shù)、挖掘技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)、人工智能技術(shù)等。大數(shù)據(jù)及其相關(guān)技術(shù)的發(fā)展影響了世界各個領(lǐng)域的深度變革。它在影響人類社會生產(chǎn)與社會生活的同時,促進(jìn)了人們思考問題方式的轉(zhuǎn)變,對學(xué)術(shù)研究亦產(chǎn)生了重要的影響。大數(shù)據(jù)不僅為學(xué)術(shù)研究帶來海量的信息化、數(shù)據(jù)化資源,還為學(xué)術(shù)研究提供了新方法、新視角。這些增大的數(shù)據(jù)與新興的方法為學(xué)術(shù)研究帶來了新知識和新思維。然而,知識爆炸的同時也帶來了一系列的問題,如獲取精準(zhǔn)知識難度的增加、對數(shù)據(jù)挖掘和數(shù)據(jù)分析能力的更高要求等。即便是在學(xué)術(shù)研究中獲得了相關(guān)領(lǐng)域或主題的文獻(xiàn)數(shù)據(jù),但其規(guī)模之大也使得科研人員難以駕馭。因此,對學(xué)術(shù)研究者而言,數(shù)據(jù)分析技術(shù)成為一種必備技能。掌握分析原理、分析方法和分析工具,對于提升科研工作者宏觀駕馭問題的能力,尤其是科學(xué)發(fā)現(xiàn)新的研究領(lǐng)域、學(xué)科交叉生長點(diǎn)等,具有重要的價值和意義。面對海量的專業(yè)文獻(xiàn),研究人員只有科學(xué)地獲取文獻(xiàn),在掌握數(shù)據(jù)的基礎(chǔ)上通過大數(shù)據(jù)研究方法(如可視化分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、云計(jì)算等)合理并高效地挖掘其中隱藏的價值信息,讓數(shù)據(jù)具有“說話”的能力,才能真正做到大數(shù)據(jù)時代下學(xué)術(shù)研究的胸中有“數(shù)”。
對數(shù)據(jù)的重視與運(yùn)用是黨史黨建研究的一個重要方法。在早期研究中,有不少文章通過對數(shù)據(jù)統(tǒng)計(jì)和相關(guān)表格來呈現(xiàn)黨的建設(shè)中的現(xiàn)象與規(guī)律。如陳公博的《共產(chǎn)主義運(yùn)動在中國》(1924年)、蔡和森的《中國共產(chǎn)黨史的發(fā)展》(1925年)、瞿秋白的《中國共產(chǎn)黨歷史概論》(1929—1930年)等。毛澤東提出將重視數(shù)量關(guān)系的研究行為上升到指導(dǎo)工作的方法論層面,黨建研究也在數(shù)據(jù)運(yùn)用層面上升到理論和方法論層面。尤其是20世紀(jì)80年代交叉學(xué)科計(jì)量史學(xué)傳入后,黨史黨建研究者把計(jì)算機(jī)科學(xué)、信息理論、數(shù)學(xué)應(yīng)用等引入黨史黨建學(xué)科領(lǐng)域,為研究者提供了一種新的觀察、分析問題的視角,黨建研究亦相應(yīng)不斷發(fā)展。然而,隨著信息大爆炸的新一輪發(fā)展,無論是傳統(tǒng)的數(shù)據(jù)運(yùn)用還是計(jì)量史學(xué)的引入,都難以應(yīng)對當(dāng)今大數(shù)據(jù)對黨史黨建研究所提出的要求與挑戰(zhàn),之前運(yùn)用和處理的數(shù)據(jù),也成為了名副其實(shí)的“小數(shù)據(jù)”[2]。黨的建設(shè)作為一門學(xué)科,目前的研究方法主要有歷史演進(jìn)研究法、宏觀—微觀研究法、比較研究分析法、實(shí)證主義研究法、案例分析法等。這些方法傳承了傳統(tǒng)研究方法,是伴隨著黨的事業(yè)發(fā)展的需要在長時期的研究實(shí)踐中形成、成熟和發(fā)展起來的,是黨建研究的基本方法和根本手段。同時,黨建研究不斷吸收其他學(xué)科的研究方法,注重從跨學(xué)科角度借鑒政治學(xué)、社會學(xué)、經(jīng)濟(jì)學(xué)、組織學(xué)等學(xué)科的研究方法進(jìn)行交叉研究,這也是多年來黨建傳統(tǒng)研究方法發(fā)展和推進(jìn)的重要體現(xiàn)。當(dāng)前,在大數(shù)據(jù)時代海量文獻(xiàn)的背景下,黨建研究人員在傳承傳統(tǒng)研究方法的基礎(chǔ)上,如何獲取海量文獻(xiàn)信息進(jìn)行分析管理,并為黨建研究提供新的學(xué)術(shù)視角與增長點(diǎn)愈加重要。
近年來,不少學(xué)者尤其是政治學(xué)、社會學(xué)等相關(guān)領(lǐng)域的學(xué)者開始關(guān)注大數(shù)據(jù)背景下學(xué)科研究的發(fā)展問題,如佟德志的《計(jì)算機(jī)輔助大數(shù)據(jù)政治話語分析》[3]、漆海霞的《大數(shù)據(jù)與國際關(guān)系研究創(chuàng)新》[4]、孟天廣的《政治科學(xué)視角下的大數(shù)據(jù)方法與因果推論》[5]等,從不同角度對大數(shù)據(jù)為學(xué)術(shù)研究提供的挑戰(zhàn)與機(jī)遇進(jìn)行了研究。在黨建學(xué)科,一些學(xué)者開始關(guān)注大數(shù)據(jù)背景下如何開展黨建工作和提高黨建科學(xué)化等問題,如趙淑梅的《“大數(shù)據(jù)”與提高黨的建設(shè)科學(xué)化水平》[6]、鄭吉峰的《機(jī)遇、挑戰(zhàn)與路徑:大數(shù)據(jù)與黨建科學(xué)化》[7]、米華全和申小蓉的《運(yùn)用大數(shù)據(jù)創(chuàng)新高校黨建工作的思考》[8]等。另外,部分學(xué)者從大數(shù)據(jù)與黨史、改革開放史等角度進(jìn)行了研究,如王冠中的《大數(shù)據(jù)時代的中共黨史研究:挑戰(zhàn)與變革》[2]、潘娜的《改革開放史研究應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn)》[9]。從學(xué)術(shù)界對大數(shù)據(jù)與黨建研究的整體狀況來看,學(xué)者們或關(guān)注大數(shù)據(jù)在黨建工作中的實(shí)踐和應(yīng)用問題,或著重探討大數(shù)據(jù)帶來的挑戰(zhàn)與機(jī)遇并提出相應(yīng)的研究原則,但從方法論上尤其是結(jié)合學(xué)科特點(diǎn)進(jìn)行具體操作分析的研究較少。因此,以黨建研究的某一主題為切入點(diǎn),一方面進(jìn)行黨建研究的知識單元統(tǒng)計(jì)分析,即通過對某主題進(jìn)行一個或者多個知識單元的頻次和統(tǒng)計(jì)分布研究,以把握該主題的時間分布、空間分布和熱點(diǎn)分布等;另一方面進(jìn)行黨建研究的知識單元網(wǎng)絡(luò)分析,即通過對各知識單元間關(guān)聯(lián)關(guān)系進(jìn)行深層次量化研究,以梳理該主題的發(fā)展歷程與研究著重點(diǎn)、分析該主題的研究基礎(chǔ)和發(fā)展展望等,對于深入理解大數(shù)據(jù)與黨建研究相結(jié)合,尤其是相關(guān)分析方法的具體探討和實(shí)際操作具有一定的意義。
描述性統(tǒng)計(jì)分析是科學(xué)計(jì)量分析中的最基本方法。它通過抽取一個或者多個知識單元字段后,對知識單元的頻次和統(tǒng)計(jì)分布進(jìn)行研究。以中國知網(wǎng)數(shù)據(jù)庫為例,其中收錄文獻(xiàn)的知識單元組成要素主要有作者、發(fā)表時間、載文期刊、基金項(xiàng)目、被引量、下載量、關(guān)鍵詞、摘要、參考文獻(xiàn)等(如圖1)。對數(shù)據(jù)庫收錄文獻(xiàn)的知識單元組成要素進(jìn)行分析,如分析文獻(xiàn)的類型、時間分布、作者分布、期刊分布、關(guān)鍵詞詞頻分布、基金分布等,有助于研究者從宏觀上把握某一研究主題的整體概況。在黨建研究中,以黨內(nèi)法規(guī)研究為例,通過下載各數(shù)據(jù)庫(中國知網(wǎng)、維普、萬方等)所收錄的以“黨內(nèi)法規(guī)”為主題的文獻(xiàn),對這些文獻(xiàn)信息進(jìn)行類型(如專著、期刊、博碩論文等)、時間、作者、期刊、關(guān)鍵詞、基金項(xiàng)目、摘要內(nèi)容、正文內(nèi)容、參考文獻(xiàn)等信息的頻次進(jìn)行計(jì)算并統(tǒng)計(jì)其分布情況,有助于從整體上把握黨內(nèi)法規(guī)研究的發(fā)展概況。
圖1 文獻(xiàn)知識單元組成要素
研究文獻(xiàn)的時間分布,主要是通過數(shù)據(jù)的發(fā)布時間來統(tǒng)計(jì)分析文獻(xiàn)的增長情況與規(guī)律。按照文獻(xiàn)增長的邏輯曲線,文獻(xiàn)在初始階段呈指數(shù)增長規(guī)律,當(dāng)文獻(xiàn)量增至一定量時,其增長率開始變小,最后進(jìn)入緩慢增長階段。對文獻(xiàn)時間分布的研究,一方面可以了解某領(lǐng)域的總體增長狀況和不同階段增長狀況;另一方面也可以總結(jié)規(guī)律并分析該領(lǐng)域今后的發(fā)展趨勢。例如,從中國知網(wǎng)數(shù)據(jù)庫和維普中文期刊服務(wù)平臺所收錄的CSSCI和核心期刊文獻(xiàn)中下載關(guān)于黨內(nèi)法規(guī)主題的論文847條,通過統(tǒng)計(jì)論文的年發(fā)文量(圖2),一方面可以看出黨內(nèi)法規(guī)領(lǐng)域的研究經(jīng)歷了初步發(fā)展、緩慢發(fā)展和快速發(fā)展的三個階段;另一方面可以對黨內(nèi)法規(guī)今后發(fā)展趨勢進(jìn)行分析,在今后黨內(nèi)法規(guī)的發(fā)展趨勢上,由于2018年的統(tǒng)計(jì)數(shù)據(jù)僅包含了1-6月的黨內(nèi)法規(guī)研究發(fā)文數(shù)據(jù),根據(jù)期刊的發(fā)文周期及數(shù)據(jù)庫更新速度,該數(shù)據(jù)僅占2018年發(fā)文量的三分之一,由此可以看出黨內(nèi)法規(guī)發(fā)文量仍將繼續(xù)增長,黨內(nèi)法規(guī)研究的熱潮仍將繼續(xù)。
圖2 中國共產(chǎn)黨黨內(nèi)法規(guī)發(fā)文量年度分布圖
研究文獻(xiàn)的作者分布,主要通過計(jì)算作者的科學(xué)生產(chǎn)率及作者H指數(shù)、G指數(shù)等來發(fā)掘某一領(lǐng)域內(nèi)學(xué)術(shù)產(chǎn)出量較多和學(xué)術(shù)影響力較大的學(xué)者。H指數(shù)和G指數(shù)是用來衡量學(xué)術(shù)研究者學(xué)術(shù)影響力的重要指標(biāo)。其中,H指數(shù)指該作者發(fā)表的Np篇論文中有h篇每篇至少被引h次,而其余Np-h篇論文每篇被引均小于或等于h次;G指數(shù)是為修正H指數(shù)對高引論文增量不敏感的缺陷,將引論文增量計(jì)算在內(nèi),論文按被引次數(shù)降序排列,找出g值,使得前g篇論文被引次數(shù)的總和大于或者等于g2,而前g+1篇論文的被引次數(shù)小于(g+1)2。一方面,通過計(jì)算作者的科學(xué)生產(chǎn)量和科學(xué)生產(chǎn)率來探究科研工作者在該領(lǐng)域的活躍程度及貢獻(xiàn);另一方面,通過計(jì)算作者H指數(shù)和G指數(shù)來找出在某研究領(lǐng)域提供了較高的學(xué)術(shù)產(chǎn)出并形成了一定學(xué)術(shù)影響力的作者。研究黨建領(lǐng)域作者分布問題,可對一位作者的科學(xué)生產(chǎn)率進(jìn)行分析計(jì)算,也可對黨建領(lǐng)域中某一研究主題的所有發(fā)文作者的科學(xué)生產(chǎn)率進(jìn)行分析計(jì)算。例如,對黨史黨建專家張靜如教授進(jìn)行作者發(fā)文量及H指數(shù)統(tǒng)計(jì),可以檢索到其公開發(fā)表的期刊論文共295篇,總引用量為1256次,作者H指數(shù)為16;以黨內(nèi)法規(guī)研究領(lǐng)域?yàn)槔M(jìn)行該領(lǐng)域發(fā)文作者的發(fā)文量及H指數(shù)計(jì)算,發(fā)現(xiàn)在該領(lǐng)域較為活躍且學(xué)術(shù)影響力較大的前十位學(xué)者分別為操申斌、肖金明、潘澤林、韓強(qiáng)、姜明安、張曉燕、何克祥、鄒慶國、秦前紅、鞠成偉(表1)。
表1 黨內(nèi)法規(guī)研究發(fā)文作者H指數(shù)
研究文獻(xiàn)的載文期刊分布,通過統(tǒng)計(jì)期刊對某一主題論文的刊載,對期刊的總被引次數(shù)、影響因子、去除自引的影響因子、5年影響因子、論文影響分值等,統(tǒng)計(jì)在某領(lǐng)域的具有高影響力的期刊。以張靜如教授發(fā)文期刊為例,其公開發(fā)表論文共刊載于72個期刊,通過對載文期刊的發(fā)文量與H指數(shù)統(tǒng)計(jì)來看(表2),張靜如教授的發(fā)文量與學(xué)術(shù)影響力基本上呈現(xiàn)于《中共黨史研究》《黨史研究與教學(xué)》和《北京黨史》等期刊。同樣對黨內(nèi)法規(guī)為主題的論文進(jìn)行載文期刊統(tǒng)計(jì),在研究樣本中共出現(xiàn)163個期刊對黨內(nèi)法規(guī)主題的論文進(jìn)行了刊載,通過分析期刊的總被引次數(shù)得出期刊H指數(shù)(表3),《探索》《人民論壇》《中共中央黨校學(xué)報》《理論學(xué)刊》《理論與改革》等期刊載文量和期刊H指數(shù)基本成正比,具有較大的影響力。
表2 張靜如教授論文載文期刊H指數(shù)
表3 黨內(nèi)法規(guī)載文期刊的H指數(shù)
文本詞頻分析,通過對組成文獻(xiàn)文本內(nèi)容的詞或短語在文本中出現(xiàn)頻次的統(tǒng)計(jì)和分析,來挖掘該領(lǐng)域的熱點(diǎn)詞與關(guān)鍵詞。對文本詞頻的分析,一方面可以通過對文獻(xiàn)本身所列出的關(guān)鍵詞進(jìn)行統(tǒng)計(jì),通過計(jì)算其中的高頻詞來分析該領(lǐng)域的研究熱點(diǎn),例如對黨內(nèi)法規(guī)研究文獻(xiàn)中的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),可以尋找在黨內(nèi)法規(guī)研究中學(xué)者們關(guān)注的研究點(diǎn)有“黨內(nèi)法規(guī)”“全面從嚴(yán)治黨”“依法治國”“黨的建設(shè)”“依規(guī)治黨”“黨內(nèi)監(jiān)督”等(表4);另一方面,由于文獻(xiàn)本身所列出的關(guān)鍵詞是作者的提煉歸納,具有一定的主觀性,因此可以通過專業(yè)的分詞軟件對文本內(nèi)容(如摘要或者正文內(nèi)容)進(jìn)行分詞,并統(tǒng)計(jì)其具有權(quán)重的關(guān)鍵詞(此時的關(guān)鍵詞是從文本中計(jì)算而來,因此具有權(quán)重)詞頻,以此來分析某一領(lǐng)域的研究熱點(diǎn)。同時,對詞頻分布的分析也可以“新詞發(fā)現(xiàn)”為切入點(diǎn),尋找不同階段的研究熱點(diǎn),如對黨內(nèi)法規(guī)研究文獻(xiàn)中的摘要部分進(jìn)行分詞和關(guān)鍵詞統(tǒng)計(jì)(表5),可以發(fā)現(xiàn)在不同發(fā)展階段黨內(nèi)法規(guī)研究的熱點(diǎn)和重點(diǎn)有所不同,黨內(nèi)法規(guī)研究的領(lǐng)域和關(guān)注點(diǎn)不斷拓展,其研究視角從微觀的黨務(wù)管理(如黨員行為規(guī)范、黨內(nèi)專門機(jī)構(gòu)等),逐漸拓展和深化到宏觀治國方略(國家治理現(xiàn)代化等)等深度。
表4 黨內(nèi)法規(guī)研究關(guān)鍵詞詞頻
表5 黨內(nèi)法規(guī)熱點(diǎn)詞權(quán)重與頻次統(tǒng)計(jì)表
知識單元共現(xiàn)分析是文獻(xiàn)計(jì)量分析中最核心的分析方法。它通過一定的關(guān)聯(lián)關(guān)系,構(gòu)建同質(zhì)的知識單元(如合作網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、引文網(wǎng)絡(luò))或異質(zhì)知識單元之間(如主題—文獻(xiàn)網(wǎng)絡(luò)、關(guān)鍵詞—作者網(wǎng)絡(luò)、作者—機(jī)構(gòu)網(wǎng)絡(luò))的關(guān)系,并進(jìn)行深層次量化分析。一般而言,實(shí)現(xiàn)知識單元共現(xiàn)分析的方法有網(wǎng)絡(luò)分析方法、多元統(tǒng)計(jì)分析以及數(shù)據(jù)可視化。這里的網(wǎng)絡(luò),指的是由點(diǎn)和連接點(diǎn)之間的線組成的集合(圖3)。點(diǎn)被稱作節(jié)點(diǎn),網(wǎng)絡(luò)節(jié)點(diǎn)可通過計(jì)算其節(jié)點(diǎn)的度中心性、接近中心性、中介中心性、特征向量中心性等進(jìn)行分析。邊是各個節(jié)點(diǎn)之間的聯(lián)系并具有一定的數(shù)值,節(jié)點(diǎn)之間聯(lián)系次數(shù)越多,邊的數(shù)值越大,在網(wǎng)絡(luò)圖中則越粗。在黨建研究中,可通過分析作者(機(jī)構(gòu)、學(xué)科等)之間的合作網(wǎng)絡(luò),進(jìn)而分析黨建研究中所形成的學(xué)術(shù)團(tuán)體及學(xué)科交叉問題;可通過分析關(guān)鍵詞之間的共詞網(wǎng)絡(luò),進(jìn)而分析黨建研究某領(lǐng)域中的研究主題及其發(fā)展歷程;可通過分析參考文獻(xiàn)之間的引文網(wǎng)絡(luò),進(jìn)而分析黨建研究的學(xué)術(shù)基礎(chǔ)及論文的相似性與差異性等問題。
圖3 網(wǎng)絡(luò)的基本組成
隨著科研工作的發(fā)展,科研合作成為越來越重要的研究方式。在科學(xué)計(jì)量學(xué)研究中,合作網(wǎng)絡(luò)的分析主要是分析作者(機(jī)構(gòu)、學(xué)科等)在科研成果上共同署名的情況。通過統(tǒng)計(jì)這些作者(機(jī)構(gòu)、學(xué)科等)共同出現(xiàn)在一篇論文的署名字段的頻次來構(gòu)建作者(機(jī)構(gòu)、學(xué)科等)的合作矩陣和合作網(wǎng)絡(luò)。合作網(wǎng)絡(luò)可研究單個作者(機(jī)構(gòu)、學(xué)科等)的合作情況,如在研究張靜如教授發(fā)表的論文中構(gòu)建起以“張靜如”為核心的作者合作網(wǎng)絡(luò)圖(圖4),可以看出與張靜如教授合作署名發(fā)表科研成果的其他作者,并通過相關(guān)信息分析可以得出張靜如教授的合作關(guān)系中主要以師生合作為主。合作網(wǎng)絡(luò)也可分析某一領(lǐng)域內(nèi)所有作者的合作發(fā)文情況,如在研究黨內(nèi)法規(guī)發(fā)文作者的合作情況(圖5),可以看出在作者合作發(fā)文中偶有單個作者與多個作者分別進(jìn)行合作的情況(如以劉先春等學(xué)者為核心的研究團(tuán)體)和有多位作者交叉合作情況(如張紀(jì)、翁淮南等學(xué)者的研究團(tuán)體),但在作者合作中多以固定的二人合作發(fā)文為主(兩個節(jié)點(diǎn)單向聯(lián)系的作者合作情況占90%),且往往以同機(jī)構(gòu)合作、師生合作等為主。當(dāng)然,以此為思路可以進(jìn)行這種方法多種使用,如研究不同機(jī)構(gòu)的合作情況、不同學(xué)科合作情況來具體分析某一研究主題的跨學(xué)科問題,研究隨著時間變化作者合作或者學(xué)科合作的演化等,進(jìn)而研究該學(xué)科的學(xué)術(shù)隊(duì)伍和學(xué)科建設(shè)問題等等。
共詞網(wǎng)絡(luò)分析是運(yùn)用統(tǒng)計(jì)方法計(jì)算詞在同一篇論文中共同出現(xiàn)的頻次,得到共現(xiàn)矩陣,并將共詞矩陣轉(zhuǎn)換成共詞網(wǎng)絡(luò)的分析方法。其原理是以文獻(xiàn)的知識單元為模塊,兩個詞同時出現(xiàn)在同一個知識單元,則表明存在共現(xiàn)關(guān)系。通過全篇計(jì)算詞對在所有文獻(xiàn)的相同知識單元中的共現(xiàn)頻次,得到最終的共現(xiàn)次數(shù),進(jìn)而形成眾多詞對組成的共詞關(guān)系網(wǎng)絡(luò)。共詞網(wǎng)絡(luò)在具體的學(xué)術(shù)研究中可以應(yīng)用到學(xué)科熱點(diǎn)及結(jié)構(gòu)內(nèi)容的研究中。在實(shí)際分析中可從文獻(xiàn)中提取信息的來源主要有文章標(biāo)題、摘要、關(guān)鍵詞、全文等。例如,對張靜如教授發(fā)表論文的關(guān)鍵詞進(jìn)行共詞網(wǎng)絡(luò)分析(圖6),可以大致總結(jié)出張靜如教授的學(xué)術(shù)思想主要集中于李大釗研究、中共歷史及黨史黨建學(xué)科建設(shè)研究、中國共產(chǎn)黨思想史研究、馬克思主義中國化研究等方面。對黨內(nèi)法規(guī)文獻(xiàn)題錄中的關(guān)鍵詞單元進(jìn)行共詞網(wǎng)絡(luò)分析(圖7),可以發(fā)掘黨內(nèi)法規(guī)研究的四大主題——“黨內(nèi)法規(guī)”“依法治國”“黨的建設(shè)”和“全面從嚴(yán)治黨”。
圖4 張靜如教授合作網(wǎng)絡(luò)圖
圖5 黨內(nèi)法規(guī)作者合作網(wǎng)絡(luò)圖
圖6 張靜如學(xué)術(shù)思想網(wǎng)絡(luò)分析圖
圖7 黨內(nèi)法規(guī)研究關(guān)鍵詞共現(xiàn)分析圖
引文網(wǎng)絡(luò)。文獻(xiàn)由于先后之間的引證而形成了引文網(wǎng)絡(luò),其中主要有文獻(xiàn)共被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò)。文獻(xiàn)共被引以研究文獻(xiàn)兩兩共被引的頻次,來測度文獻(xiàn)之間的相似性。兩篇論文的共被引次數(shù)越大,則兩篇論文在研究內(nèi)容上越相近。由于隨著時間變化論文的共被引次數(shù)會發(fā)生變化,因此文獻(xiàn)共被引次數(shù)具有可變性。文獻(xiàn)的耦合以研究文獻(xiàn)兩兩所具有的相同參考文獻(xiàn)的頻次,來測度文獻(xiàn)的相似性。如果兩篇論文所包含的相同參考文獻(xiàn)的數(shù)量越多,那么這兩篇文獻(xiàn)的相似性就越大。由于參考文獻(xiàn)是論文的一部分,因而已發(fā)表的兩篇論文的耦合強(qiáng)度,不會隨時間的變化而變化。研究某一領(lǐng)域的文獻(xiàn)耦合網(wǎng)絡(luò),一方面可以看出該領(lǐng)域的基礎(chǔ)文獻(xiàn)內(nèi)容及類型,另一方面可以反映該領(lǐng)域研究的相似性與差異性問題。例如,以《中共黨史研究》期刊為例,對該期刊從1998年至2017年二十年內(nèi)的文章參考文獻(xiàn)進(jìn)行文獻(xiàn)耦合網(wǎng)絡(luò)構(gòu)建和分析,可以發(fā)現(xiàn)參考文獻(xiàn)基本上分布于黨的領(lǐng)導(dǎo)人的著作文集、選集和黨的重要文件選集等三類。第一,以毛澤東的選集、文集為核心的文獻(xiàn)耦合,形成了以《毛澤東選集》(人民出版社)、《毛澤東文集》(人民出版社)、《建國以來毛澤東文稿》(中央文獻(xiàn)出版社)為主要內(nèi)容,以《毛澤東在七大的報告和講話集》(中央文獻(xiàn)出版社)、《毛澤東書信選集》(人民出版社)、《毛澤東外交文選》(中央文獻(xiàn)出版社)和《胡喬木回憶毛澤東》(人民出版社)等為輔助內(nèi)容的第一大聚類。第二,以鄧小平的文選、年譜為核心的文獻(xiàn)耦合,形成了以《鄧小平文選》(人民出版社)、《鄧小平年譜》(中央文獻(xiàn)出版社)為主要內(nèi)容,以《劉少奇選集》(人民出版社)、《陳云文選》(人民出版社)、《周恩來選集》(人民出版社)、《周恩來年譜》(中央文獻(xiàn)出版社)和《若干重大決策與事件的回顧》(中共中央黨校出版社)等為輔助內(nèi)容的第二大聚類。第三,以黨的重要文件、選集為核心的文獻(xiàn)耦合,形成了以《中共中央文件選集》(中共中央黨校出版社)、《建國以來重要文獻(xiàn)選編》(中央文獻(xiàn)出版社)和《共產(chǎn)國際、聯(lián)共(布)與中國革命檔案資料叢書》(北京圖書館出版社)等為內(nèi)容的第三大聚類。通過對參考文獻(xiàn)耦合網(wǎng)絡(luò)的分析,一方面可以分析在研究某一主題時較為權(quán)威和重要的參考文獻(xiàn)有哪些,另一方面也可以從參考文獻(xiàn)類型及內(nèi)容的角度上分析該學(xué)科研究的不足與發(fā)展方向。
目前,有大量能夠?qū)崿F(xiàn)文獻(xiàn)科學(xué)計(jì)量與知識網(wǎng)絡(luò)分析的工具,如BibExcel,Sci2科學(xué)研究與實(shí)踐工具、Loet科學(xué)計(jì)量工具包、SATI文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具、Bicomb書目共現(xiàn)分析系統(tǒng)等。另外,可通過導(dǎo)出相應(yīng)的數(shù)據(jù)結(jié)果在VOSviewer、Pajek等可視化工具中實(shí)現(xiàn)可視化網(wǎng)絡(luò)圖的制作和展示。其中,以BibExcel和Pajek分析工具為例,其實(shí)現(xiàn)文獻(xiàn)科學(xué)計(jì)量和網(wǎng)絡(luò)分析可視化的基本分析思路為原始數(shù)據(jù)處理、數(shù)據(jù)分析和可視化表達(dá)。
BibExcel是瑞典科學(xué)計(jì)量學(xué)家歐萊·皮爾遜開發(fā)的文獻(xiàn)計(jì)量工具。其最大特色是利用BibExcel處理得到的文件可以快捷導(dǎo)入Excel中進(jìn)行進(jìn)一步分析,對進(jìn)行文獻(xiàn)科學(xué)計(jì)量和網(wǎng)絡(luò)分析具有很好的幫助。該軟件是基于英文數(shù)據(jù)庫所收錄的文獻(xiàn)而進(jìn)行分析的軟件,因此對中文文獻(xiàn)而言,首先需要將收錄的中文文獻(xiàn)轉(zhuǎn)換成適合BibExcel可分析的相應(yīng)格式。將中國知網(wǎng)數(shù)據(jù)庫中某主題的相關(guān)文獻(xiàn)題錄以NoteExpress格式導(dǎo)出。通過NoteExpress文獻(xiàn)管理工具將導(dǎo)入的文獻(xiàn)以Excel格式導(dǎo)出題錄,并將該Excel文件以“文本文件(制表符分隔)”格式儲存為txt文本。這樣就得到適合BibExcel分析的原始數(shù)據(jù)。如在中國知網(wǎng)數(shù)據(jù)庫中以“社會科學(xué)I輯”為限定領(lǐng)域,搜索以“深化改革”為主題的論文共6323篇,除去與主題無關(guān)的論文剩余5906篇。將這些論文題錄以NoteExpress格式導(dǎo)出,并通過NoteExpress軟件將5906篇論文以Excel格式導(dǎo)出題錄。通過對該Excel進(jìn)行適當(dāng)刪減(刪除其中的空白列等)后,以“文本文件(制表符分隔)”格式儲存為txt文本。
將生成的“深化改革.txt”文本點(diǎn)擊Edit doc file—replaceline feed with carriage return(確定/是),生成“深化改革.tx2”文件,點(diǎn)擊Misc—Convert to dialog format—Convert from WOStabbed format,自動生成“深化改革.doc”文件。通過在Old Tag中對不同字段(如年份、作者、作者機(jī)構(gòu)、基金項(xiàng)目、載文期刊、關(guān)鍵詞、參考文獻(xiàn)等)進(jìn)行Prep,可提取出所有文獻(xiàn)的相應(yīng)字段,亦可對此字段在Frequency distribution區(qū)域進(jìn)行排序(如Sort descending),將生成的“深化改革.cit”頻次文件用excel打開,即呈現(xiàn)出數(shù)據(jù)的頻次結(jié)果。另外,可通過發(fā)文量與被引量算出作者(期刊、機(jī)構(gòu)等)的H指數(shù)。首先提取作者(期刊、機(jī)構(gòu)等)單元,在此基礎(chǔ)上將被引量的單元Add field to units,生成包含作者(期刊、機(jī)構(gòu)等)信息和引用量的jn1文件,提取分析列后在The Box輸入2/3,在Edit out file-select columns中生成col文件,最后通過analyze—h-index(確定/是),生成hdx文件,并用excel打開即可統(tǒng)計(jì)生成作者(期刊、機(jī)構(gòu)等)的H指數(shù)。
可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的一種方法和技術(shù)??梢暬治鍪腔谥R單元網(wǎng)絡(luò)分析及其解讀來展示結(jié)構(gòu)關(guān)系的一種圖形,亦稱為科學(xué)知識圖譜方法。可視化分析一般可分析關(guān)系的可視化、文獻(xiàn)共被引的可視化、主題共現(xiàn)的可視化。例如,在可視化分析軟件Pajek中,將BibExcel中生成的“深化改革.net”和“深化改革.vec”文件導(dǎo)入,繼而生成相應(yīng)的矩陣圖和網(wǎng)絡(luò)圖。以作者合作網(wǎng)絡(luò)可視化為例,第一步在BibExcel中生成“深化改革.out”文件,統(tǒng)計(jì)作者頻次生成“深化改革.cit”文件,在此基礎(chǔ)上形成共現(xiàn)頻次列表“深化改革.coc”文件(analyze—co-occurrence—makepairsvialistbox,生成“深化改革.coc”文件),通過mapping—creat net—file for pajek……生成“深化改革.net”文件;第二步將獲得的矢量文件“深化改革.vec”文件,點(diǎn)頻次文件“深化改革.cit”,mapping—creat vec-file即可獲得;第三步將這兩個文件導(dǎo)入Pajek中,通過生成聚類(layout—energy—KK—Free),最終得出關(guān)于作者合作網(wǎng)絡(luò)關(guān)系圖。
時代的革新要求理論研究的革新。大數(shù)據(jù)為黨建研究的發(fā)展尤其是黨建研究方法創(chuàng)新提供了機(jī)遇,適應(yīng)并革新黨建研究方法為深化黨建研究提供了新的生長點(diǎn)。黨建研究一方面需要通過多學(xué)科領(lǐng)域的“大數(shù)據(jù)”來推動其拓展化、信息化,另一方面需要引入大數(shù)據(jù)研究方法,結(jié)合量化研究和高級統(tǒng)計(jì)方法等,實(shí)現(xiàn)黨建研究的科學(xué)性、現(xiàn)代化。當(dāng)然,不斷擴(kuò)充的數(shù)據(jù)文獻(xiàn)、不斷增加的海量信息和不斷更新的技術(shù)軟件,始終都是研究的輔助工具。對黨建研究者來說,不僅要掌握數(shù)據(jù)信息,更要提高對數(shù)據(jù)的“加工”能力。黨建研究者應(yīng)在黨建理論的指導(dǎo)下,根據(jù)自身的研究數(shù)據(jù),不斷加強(qiáng)統(tǒng)計(jì)方法原理理解與黨建研究問題意識,不斷提升理論功底和綜合能力,才能結(jié)合數(shù)據(jù)文本對統(tǒng)計(jì)結(jié)果作出更為細(xì)致、深入的解釋分析,進(jìn)而不斷深化黨建研究。
沈陽師范大學(xué)學(xué)報(教育科學(xué)版)2019年2期