陳書敏
(江西醫(yī)學(xué)高等??茖W(xué)?;A(chǔ)醫(yī)學(xué)院,上饒 334000)
國(guó)內(nèi)文獻(xiàn)計(jì)量學(xué)研究的共詞分析一般有三種方法來(lái)實(shí)現(xiàn):第一,使用Bibexcel、Citespace、BICOMB、Histcite、UCINET 等文獻(xiàn)計(jì)量學(xué)分析工具軟件;第二,直接用VB、VC、VBA語(yǔ)言編寫軟件;第三,直接兩兩成組對(duì)檢索來(lái)實(shí)現(xiàn)[1]。加之,不同的分析工具軟件使用的方法不同、支持的數(shù)據(jù)來(lái)源不同、數(shù)據(jù)格式不同。如Histcite、Bibexcel 以Web of Science 數(shù)據(jù)源為基礎(chǔ),不能直接對(duì)知網(wǎng)、維普、萬(wàn)方等中文數(shù)據(jù)源進(jìn)行文獻(xiàn)分析;第二種方法難于理解和掌握,不利于學(xué)習(xí)使用;第三種方法過(guò)程比較復(fù)雜,不利于操作。
相對(duì)于上述方法,Excel 不需要太多學(xué)習(xí)成本、操作簡(jiǎn)單,是很好的文獻(xiàn)計(jì)量研究的有效工具[2]。
Excel 在國(guó)內(nèi)文獻(xiàn)計(jì)量學(xué)研究中應(yīng)用不多[3-5]。目前,從國(guó)內(nèi)外數(shù)據(jù)庫(kù)檢索出的Excel在共詞分析的理論研究文獻(xiàn)只有兩篇。這兩篇文獻(xiàn)都是2011 年發(fā)表的,均使用的是2010 及以前的版本?,F(xiàn)在已經(jīng)過(guò)去了十多年,Excel 版本在不斷更新,功能也隨之增加增強(qiáng)。使用新版本新方法(即Excel 2016)能讓Excel 在共詞分析中的應(yīng)用更加高效。目前在國(guó)內(nèi)外文獻(xiàn)中還沒(méi)有此類理論研究報(bào)告。
采用Excel 2016版更易于應(yīng)用推廣,具體原因如下:①Excel 2019、Excel 2021 與Excel 2016最大差別是增加了圖標(biāo)功能、新的函數(shù)和圖表,其他的功能和操作沒(méi)有太大的變化[3];②Excel 2019 以上版本必須要安裝在Window 10操作系統(tǒng)上,這對(duì)硬件要求比較高,從而造成一些老舊電腦無(wú)法安裝;③高版本可以兼容低版本,且它們的操作相差不大;④本文使用的“逆透視列”和“多個(gè)工作表合并”均是Excel 2016版本中Power Query(查詢?cè)鰪?qiáng)版)插件的一個(gè)功能。Excel 2010版本沒(méi)有此插件,國(guó)產(chǎn)的辦公軟件WPS也沒(méi)有此插件。
本文以人工智能在醫(yī)學(xué)領(lǐng)域應(yīng)用的文獻(xiàn)分析為例,從數(shù)據(jù)收集和數(shù)據(jù)分析處理的角度比較使用Excel 2016 與Excel 2010 版本實(shí)現(xiàn)共詞分析的方法。希望此文能推動(dòng)共詞分析法在文獻(xiàn)計(jì)量學(xué)的普及應(yīng)用。
在“中國(guó)知網(wǎng)”中以“人工智能”并含“醫(yī)學(xué)”為檢索條件進(jìn)行“同義詞擴(kuò)展”和“精確”匹配,檢索截至?xí)r間為2018 年12 月31 日。點(diǎn)擊“自定義導(dǎo)出電子表格”,直接導(dǎo)出數(shù)據(jù)。
將知網(wǎng)文獻(xiàn)記錄導(dǎo)出后需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去除無(wú)效的記錄。對(duì)比Excel 2016 與Excel 2010版本的操作,具體見(jiàn)表1。
表1 不同版本預(yù)處理效果比較
1.2.1 去除一稿多投
去除“一稿多投”無(wú)效記錄的操作通過(guò)標(biāo)識(shí)、篩選、甄別三步實(shí)現(xiàn)。在Excel2016 中,具體操作如下:第一步,打開前面導(dǎo)出電子表格文件,點(diǎn)擊“Title-題名”所在列,選擇“開始”選項(xiàng)卡→“條件格式”→“突出顯示單元格規(guī)則”→“重復(fù)值”→設(shè)置重復(fù)值的顏色;再點(diǎn)“Author-作者”所在列,重復(fù)操作一次。這樣就將題名相同、作者相同的單元格用顏色標(biāo)識(shí)出來(lái)了。
第二步,選擇文獻(xiàn)記錄所在任意一個(gè)單元格,點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→“篩選”按鈕,再點(diǎn)擊“Title-題名”所在列旁的下拉菜單→“按顏色篩選”→“按單元格顏色篩選”→選擇剛剛條件格式設(shè)置的顏色;再點(diǎn)擊“Author-作者”所在列,重復(fù)操作一次。這樣就將題名和作者均相同的記錄篩選出。最后一步,查看“文獻(xiàn)來(lái)源”“摘要”等字段,甄別哪些記錄是“一稿多投”。
1.2.2 去除廣告類無(wú)效記錄
常常遇到類似于“本期專論導(dǎo)讀”“捐贈(zèng)”“稿約”“圣愛(ài)中醫(yī)館簡(jiǎn)介”這類廣告性質(zhì)的文獻(xiàn)記錄,內(nèi)容與研究主題無(wú)關(guān),須要去除。故對(duì)題目字段進(jìn)行不包含某些特定關(guān)鍵詞篩選,實(shí)現(xiàn)去除無(wú)關(guān)記錄的目的。下面以去除包括“稿約”關(guān)鍵詞的記錄為例,在Excel 2016 中的具體操作如下:第一步,選擇“Title-題名”所在列,點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→“篩選”按鈕,再點(diǎn)擊題名列旁的下拉菜單→“文本篩選”→“不包含”;第二步,在彈出的對(duì)話框中,輸入關(guān)鍵字“稿約”即可。
1.2.3 去除新聞?lì)悷o(wú)效記錄
常常遇到類似于“熱烈慶?!禭X》又上新臺(tái)階”“某某系統(tǒng)通過(guò)技術(shù)鑒定”這種與研究主題相關(guān)的文獻(xiàn)記錄。其內(nèi)容或是簡(jiǎn)單的新聞介紹,或是科普性說(shuō)明,沒(méi)有太多學(xué)術(shù)價(jià)值,也要去除。這類文獻(xiàn)記錄一般沒(méi)有作者或是“本刊訊”。因此對(duì)作者字段進(jìn)行文本篩選,去除關(guān)鍵字為空或“本刊訊”的記錄,在Excel 2016中的具體操作如下:第一步,選擇“Author-作者”所在列,點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→“篩選”按鈕,再點(diǎn)擊作者列旁的下拉菜單→去除“空白”復(fù)選框前鉤;第二步,與前面所述不包括關(guān)鍵字文本篩選操作一樣,且把關(guān)鍵字設(shè)置為“本刊訊”。
雖然上述Excel 2016數(shù)據(jù)預(yù)處理的方法也可用于Excel 2010 版本,但從目前檢索到的文獻(xiàn)來(lái)看,之前研究者僅使用Excel“高級(jí)篩選”功能去除完全相同的記錄來(lái)進(jìn)行數(shù)據(jù)預(yù)處理,而這種方法在實(shí)際操作中作用不大。因?yàn)殡S著學(xué)術(shù)不端檢測(cè)手段越來(lái)越先進(jìn),原文抄襲或大段文字抄襲變得越來(lái)越少[4]。
Excel 2010 采用“Countif”函數(shù)或數(shù)據(jù)透視表來(lái)實(shí)現(xiàn)年份分布的統(tǒng)計(jì),其中數(shù)據(jù)透視表的操作更為便捷[5]。之前研究者直接對(duì)年份字段進(jìn)行統(tǒng)計(jì),然而在使用過(guò)程中會(huì)發(fā)現(xiàn)有些文獻(xiàn)記錄無(wú)法在“Year-年”字段顯示相應(yīng)年份,這樣會(huì)造成某些有效記錄沒(méi)有被統(tǒng)計(jì)到。進(jìn)一步研究發(fā)現(xiàn),在“PubTime-發(fā)表時(shí)間”字段不會(huì)缺失,且字段的左側(cè)前四個(gè)數(shù)字為發(fā)表的年份。因此先使用Excel2016 自動(dòng)篩選功能篩選出年份字段為空白的文獻(xiàn)記錄,再在“年份”單元格中輸入函數(shù)“=left(發(fā)表時(shí)間字段的單元格內(nèi)容,4)”獲得發(fā)表年份,最后使用數(shù)據(jù)透視表統(tǒng)計(jì)每一年的發(fā)表數(shù)量。
以人工智能在醫(yī)學(xué)領(lǐng)域應(yīng)用的文獻(xiàn)分析為例,采用上述改進(jìn)方法可得我國(guó)人工智能在醫(yī)學(xué)領(lǐng)域的應(yīng)用研究情況(1981—2018 年),總體上呈現(xiàn)出階梯式增長(zhǎng)趨勢(shì),并由此劃分為嘗試期、起步期、發(fā)展期三個(gè)發(fā)展階段。
綜上所述,對(duì)比Excel 2016 與Excel 2010 版本的操作得到表2,Excel 2016效果更好。
表2 不同版本年份分布處理效果比較
2.2.1 詞頻統(tǒng)計(jì)
詞頻統(tǒng)計(jì)是熱點(diǎn)研究分析的基本方法,通過(guò)關(guān)鍵詞分列和關(guān)鍵詞統(tǒng)計(jì)兩步操作來(lái)實(shí)現(xiàn)[5]。
對(duì)比Excel 2016 與Excel 2010 版本的操作得到表3。由表3 可知,Excel 2010 因不能去除關(guān)鍵詞之間的多個(gè)相同分隔符而產(chǎn)生許多無(wú)效的空白列,增加了要處理的數(shù)據(jù)量。若在分列前先將它們統(tǒng)一轉(zhuǎn)換為同一個(gè)有效分隔符,則可以避免上述問(wèn)題。Excel 2016 在分列前使用了“查找替換”實(shí)現(xiàn)了上面設(shè)想,改進(jìn)了關(guān)鍵詞分列操作。
表3 不同版本詞頻統(tǒng)計(jì)分析比較
由表3 可知,Excel 2010 版本進(jìn)行關(guān)鍵詞統(tǒng)計(jì)不僅會(huì)隨著關(guān)鍵詞列數(shù)變多而變得繁瑣,而且會(huì)保留許多字段值為空的數(shù)據(jù),例如將多列逐個(gè)復(fù)制首尾相連成一列的操作。假設(shè)關(guān)鍵詞有n列,則需要執(zhí)行n-1列復(fù)制步驟才能將所有關(guān)鍵詞排列成一列。而使用Excel 2016的逆透視列功能可輕松實(shí)現(xiàn)相連成一列的效果。即選中所有的關(guān)鍵詞,點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→點(diǎn)擊“從表格”→進(jìn)入“查詢編輯器”→點(diǎn)擊“轉(zhuǎn)換”選項(xiàng)卡→點(diǎn)擊“逆透視列”下拉列表中的“逆透視列”選項(xiàng)→選中“屬性”所在列→點(diǎn)擊“開始”選項(xiàng)卡→點(diǎn)擊“刪除列”按鈕→點(diǎn)擊“關(guān)閉并上載”按鈕→得到最后結(jié)果。這個(gè)方法不僅快捷而且能自動(dòng)將字段值為空的數(shù)據(jù)去除掉。
2.2.2 高頻詞
高頻詞能提供定量和定性的分析,突顯出過(guò)去和現(xiàn)在研究領(lǐng)域的熱點(diǎn),是一種重要的研究數(shù)據(jù)[6]。高頻詞的確定分三步實(shí)現(xiàn)。第一步用高低頻詞界定公式,確定高頻詞的閥值;第二步按關(guān)鍵詞統(tǒng)計(jì)計(jì)數(shù)結(jié)果降序排列;第三步確定高頻詞范圍[5]。在實(shí)際操作過(guò)程中后兩步可以簡(jiǎn)化改進(jìn)為直接用高級(jí)篩選功能一次實(shí)現(xiàn)。
為了分析人工智能在醫(yī)學(xué)領(lǐng)域應(yīng)用不同階段的研究熱點(diǎn)變化,現(xiàn)將關(guān)鍵詞按三個(gè)不同發(fā)展階段分類并逐個(gè)分析。以起步期的關(guān)鍵詞為例,經(jīng)數(shù)據(jù)透視表對(duì)關(guān)鍵詞頻次統(tǒng)計(jì)可得關(guān)鍵詞出現(xiàn)1 次數(shù)量為673。按照高低頻詞界定公式:÷ 2,其中I1指只出現(xiàn)過(guò)1 次的關(guān)鍵詞數(shù)量,T為高頻詞中的最低閾值[7]。故I1為673,T值為36.19,四舍五入閥值為36。
下面用“高級(jí)篩選”獲得高頻詞,具體操作如下:點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→點(diǎn)擊“排序和篩選”組中的“高級(jí)”按鈕→進(jìn)入“高級(jí)篩選”詳細(xì)設(shè)置,其中列表區(qū)域選擇前面數(shù)據(jù)透視表數(shù)據(jù),條件區(qū)域設(shè)置為“頻次大于等于36”→“確定”按鈕,得到兩個(gè)高頻詞:人工智能和專家系統(tǒng)。
由于得到高頻詞數(shù)量太少難以分析研究熱點(diǎn),故選擇占總詞頻20%以上的關(guān)鍵詞為高頻關(guān)鍵詞,即選擇頻次前20%的關(guān)鍵詞為高頻詞[8]。具體操作步驟如下:選擇要操作的數(shù)據(jù),再點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→點(diǎn)擊“排序和篩選”組中的“篩選”按鈕→點(diǎn)擊“頻次”選項(xiàng)卡→點(diǎn)擊“數(shù)字篩選”→點(diǎn)擊“前10 項(xiàng)”→設(shè)置篩選條件前20%→點(diǎn)擊“確定”按鈕,篩選出符合要求的高頻詞。
2.2.3 共詞矩陣
采用Excel 2010 構(gòu)建共詞矩陣分三步實(shí)現(xiàn)。第一步清除低頻詞;第二步形成高頻詞兩兩組隊(duì);第三步構(gòu)建矩陣[5]。若使用Excel 2016來(lái)實(shí)現(xiàn),則操作更為簡(jiǎn)便,效率更高。但這個(gè)新辦法需要改變上面的操作次序,兩兩組隊(duì)即高頻詞兩兩配對(duì),形成兩列高頻詞隊(duì);第二步清除低頻詞;第三步構(gòu)建矩陣。
(1)形成高頻詞兩兩組隊(duì)。對(duì)比Excel 2016與Excel 2010版本的操作得到表4。由表4可知,Excel 2010高頻詞兩兩組隊(duì)分兩步實(shí)現(xiàn)。第一步先以第二關(guān)鍵詞為主關(guān)鍵詞進(jìn)行排序,將第二個(gè)關(guān)鍵詞中為空白的條目刪除。這樣可以將空白條目和單一關(guān)鍵詞刪除;第二步使用復(fù)制粘貼的辦法,將所有關(guān)鍵詞列兩兩組合并首尾相連成兩列關(guān)鍵詞[5]。假設(shè)有n列關(guān)鍵詞,任取2列,其組合共有種,需進(jìn)行次首尾相連。以起步期的關(guān)鍵詞為例,總共有18 列,共有種組合,需進(jìn)行153 次兩兩配對(duì),152 次首尾相連復(fù)制粘貼。上面整個(gè)操作過(guò)程繁瑣,且容易出錯(cuò),而使用Excel 2016“逆透視列”和“多個(gè)工作表合并”的操作則不同。具體操作如下:第一步“逆透視列形成兩兩數(shù)列”。單擊關(guān)鍵詞列表區(qū)域任意單元格,再依次點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→點(diǎn)擊“從表格”→進(jìn)入“查詢編輯器”→選中“關(guān)鍵詞2”,再按住shift鍵不放,點(diǎn)擊最后列(這樣選擇了除“關(guān)鍵詞1”以外所有列)→點(diǎn)擊“轉(zhuǎn)換”選項(xiàng)卡→點(diǎn)擊“逆透視列”下拉列表中的“逆透視列”選項(xiàng)→選中“屬性”所在列→點(diǎn)擊“開始”選項(xiàng)卡→點(diǎn)擊“刪除列”按鈕→點(diǎn)擊“關(guān)閉并上載”按鈕→得到最后結(jié)果,并導(dǎo)出到新工作表中。這個(gè)操作結(jié)果能在直接清除空白條目和單一關(guān)鍵詞條目的同時(shí),得到第一列關(guān)鍵詞與其他列關(guān)鍵詞配對(duì)成的兩兩數(shù)列。若想得到第二列關(guān)鍵詞與其他列關(guān)鍵詞配對(duì)成的兩兩數(shù)列,只需將第一列關(guān)鍵詞刪除掉,重復(fù)上面操作即可。由于最后兩列關(guān)鍵詞已經(jīng)配對(duì),不需要使用“逆透視列”操作,故n列關(guān)鍵詞實(shí)際只需進(jìn)行n-2 次“逆透視列”操作,產(chǎn)生n-2個(gè)新工作表。加上最后兩列關(guān)鍵詞配對(duì)的工作表,共有n-1個(gè)工作表,需n-2次首尾相連復(fù)制粘貼才能合并在一起(以起步期的關(guān)鍵詞為例,總共有18 列,需進(jìn)行16 次“逆透視列”操作,產(chǎn)生16 個(gè)新工作表,將17 個(gè)工作表合并在一起,需16次首尾相連復(fù)制粘貼)。這樣將n-1 個(gè)工作表合并在一起,也是一個(gè)繁瑣操作。而使用Excel 2016的第二步“多個(gè)工作表合并”操作可解決上面問(wèn)題。具體操作如下:點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→點(diǎn)擊“新建查詢”→“從工作簿”→選擇工作簿→啟動(dòng)工作表合并導(dǎo)航器,點(diǎn)選“選擇多項(xiàng)”→在要合并的工作表前打鉤→點(diǎn)擊“編輯”按鈕→“開始”選項(xiàng)卡→點(diǎn)擊“追加查詢”→點(diǎn)選“三個(gè)或更多表”→再次選擇要追加查詢的工作表→點(diǎn)擊“確定”按鈕→點(diǎn)擊“關(guān)閉并上載”按鈕→得到多工作表合并最終結(jié)果。Excel 2016“多個(gè)工作表合并”優(yōu)點(diǎn)在于不受工作表數(shù)量限制,直接首尾相連合并成兩列關(guān)鍵詞。
表4 不同版本構(gòu)建共詞矩陣分析比較
(2)清除低頻詞。Excel 2010 篩選出高頻詞的方法是先在每一列之后新建一空白列,再使用VLOOKUP函數(shù)找出與之匹配的高頻詞。其中低頻詞后面對(duì)應(yīng)著“#N/A”,高頻詞后面對(duì)應(yīng)著內(nèi)容與高頻詞相同的詞。再任取一列利用“排序”將值為“#N/A”的行全部排在一起,最后刪除這些行,得到這一列的高頻詞。其它列的高頻詞也是這樣操作得到的[5]。如前所述,第一步是清除低頻詞,而關(guān)鍵詞列數(shù)越多則處理次數(shù)也越多。假設(shè)有n列關(guān)鍵詞,每一列需在其后新建一空白列一次,使用VLOOKUP 函數(shù)一次,排序并刪除低頻詞一次,則總共需要4×n步才能完成。以起步期的關(guān)鍵詞為例,需要處理18 次,共72 步才能清除低頻詞。由于應(yīng)用Excel 2016新辦法的操作次序發(fā)生變化,使得實(shí)際處理的關(guān)鍵詞列數(shù)只有2列,此時(shí)再使用“高級(jí)篩選”就可得到高頻詞列。具體操作如下:點(diǎn)擊“數(shù)據(jù)”選項(xiàng)卡→點(diǎn)擊“排序和篩選”組中的“高級(jí)”按鈕→進(jìn)入“高級(jí)篩選”詳細(xì)設(shè)置,其中列表區(qū)域?yàn)樵紨?shù)據(jù),條件區(qū)域?yàn)閮闪懈哳l詞→“確定”按鈕。
(3)構(gòu)建矩陣。將得到的高頻詞隊(duì)列交叉復(fù)制到列下,形成新的高頻詞隊(duì)列;再對(duì)其使用“數(shù)據(jù)透視表”分析可得共詞矩陣。具體操作:將高頻詞隊(duì)列和高頻詞交叉后的隊(duì)列分別存放在兩個(gè)工作表中,再使用“多個(gè)工作表合并”將他們合并成一個(gè)隊(duì)列,最后使用“數(shù)據(jù)透視表”分析得到共詞矩陣。
從海量的科技文獻(xiàn)中挖掘有效信息是科技創(chuàng)新的關(guān)鍵任務(wù)之一,因此也成為科研人員及其管理者關(guān)注的焦點(diǎn)[9]。通過(guò)共詞分析來(lái)揭示領(lǐng)域研究熱點(diǎn)是常用的文獻(xiàn)分析方法。對(duì)比Excel 2010,使用Excel 2016 進(jìn)行共詞分析可以減少文獻(xiàn)計(jì)量工作量,提高數(shù)據(jù)挖掘的效率,降低了使用的技術(shù)門檻[10]。