亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Excel 2016 實現(xiàn)共詞分析的方法

2023-11-14 08:05:42陳書敏

現(xiàn)代計算機 2023年17期

關(guān)鍵詞：按鈕

陳書敏

（江西醫(yī)學(xué)高等?？茖W(xué)?；A(chǔ)醫(yī)學(xué)院，上饒 334000）

0 引言

國內(nèi)文獻計量學(xué)研究的共詞分析一般有三種方法來實現(xiàn)：第一，使用Bibexcel、Citespace、BICOMB、Histcite、UCINET 等文獻計量學(xué)分析工具軟件；第二，直接用VB、VC、VBA語言編寫軟件；第三，直接兩兩成組對檢索來實現(xiàn)［1］。加之，不同的分析工具軟件使用的方法不同、支持的數(shù)據(jù)來源不同、數(shù)據(jù)格式不同。如Histcite、Bibexcel 以Web of Science 數(shù)據(jù)源為基礎(chǔ)，不能直接對知網(wǎng)、維普、萬方等中文數(shù)據(jù)源進行文獻分析；第二種方法難于理解和掌握，不利于學(xué)習(xí)使用；第三種方法過程比較復(fù)雜，不利于操作。

相對于上述方法，Excel 不需要太多學(xué)習(xí)成本、操作簡單，是很好的文獻計量研究的有效工具［2］。

Excel 在國內(nèi)文獻計量學(xué)研究中應(yīng)用不多［3-5］。目前，從國內(nèi)外數(shù)據(jù)庫檢索出的Excel在共詞分析的理論研究文獻只有兩篇。這兩篇文獻都是2011 年發(fā)表的，均使用的是2010 及以前的版本。現(xiàn)在已經(jīng)過去了十多年，Excel 版本在不斷更新，功能也隨之增加增強。使用新版本新方法（即Excel 2016）能讓Excel 在共詞分析中的應(yīng)用更加高效。目前在國內(nèi)外文獻中還沒有此類理論研究報告。

采用Excel 2016版更易于應(yīng)用推廣，具體原因如下：①Excel 2019、Excel 2021 與Excel 2016最大差別是增加了圖標(biāo)功能、新的函數(shù)和圖表，其他的功能和操作沒有太大的變化［3］；②Excel 2019 以上版本必須要安裝在Window 10操作系統(tǒng)上，這對硬件要求比較高，從而造成一些老舊電腦無法安裝；③高版本可以兼容低版本，且它們的操作相差不大；④本文使用的“逆透視列”和“多個工作表合并”均是Excel 2016版本中Power Query（查詢增強版）插件的一個功能。Excel 2010版本沒有此插件，國產(chǎn)的辦公軟件WPS也沒有此插件。

本文以人工智能在醫(yī)學(xué)領(lǐng)域應(yīng)用的文獻分析為例，從數(shù)據(jù)收集和數(shù)據(jù)分析處理的角度比較使用Excel 2016 與Excel 2010 版本實現(xiàn)共詞分析的方法。希望此文能推動共詞分析法在文獻計量學(xué)的普及應(yīng)用。

1 數(shù)據(jù)收集

1.1 原始數(shù)據(jù)導(dǎo)出

在“中國知網(wǎng)”中以“人工智能”并含“醫(yī)學(xué)”為檢索條件進行“同義詞擴展”和“精確”匹配，檢索截至?xí)r間為2018 年12 月31 日。點擊“自定義導(dǎo)出電子表格”，直接導(dǎo)出數(shù)據(jù)。

1.2 數(shù)據(jù)預(yù)處理

將知網(wǎng)文獻記錄導(dǎo)出后需要對數(shù)據(jù)進行預(yù)處理，去除無效的記錄。對比Excel 2016 與Excel 2010版本的操作，具體見表1。

表1 不同版本預(yù)處理效果比較

1.2.1 去除一稿多投

去除“一稿多投”無效記錄的操作通過標(biāo)識、篩選、甄別三步實現(xiàn)。在Excel2016 中，具體操作如下：第一步，打開前面導(dǎo)出電子表格文件，點擊“Title-題名”所在列，選擇“開始”選項卡→“條件格式”→“突出顯示單元格規(guī)則”→“重復(fù)值”→設(shè)置重復(fù)值的顏色；再點“Author-作者”所在列，重復(fù)操作一次。這樣就將題名相同、作者相同的單元格用顏色標(biāo)識出來了。

第二步，選擇文獻記錄所在任意一個單元格，點擊“數(shù)據(jù)”選項卡→“篩選”按鈕，再點擊“Title-題名”所在列旁的下拉菜單→“按顏色篩選”→“按單元格顏色篩選”→選擇剛剛條件格式設(shè)置的顏色；再點擊“Author-作者”所在列，重復(fù)操作一次。這樣就將題名和作者均相同的記錄篩選出。最后一步，查看“文獻來源”“摘要”等字段，甄別哪些記錄是“一稿多投”。

1.2.2 去除廣告類無效記錄

常常遇到類似于“本期專論導(dǎo)讀”“捐贈”“稿約”“圣愛中醫(yī)館簡介”這類廣告性質(zhì)的文獻記錄，內(nèi)容與研究主題無關(guān)，須要去除。故對題目字段進行不包含某些特定關(guān)鍵詞篩選，實現(xiàn)去除無關(guān)記錄的目的。下面以去除包括“稿約”關(guān)鍵詞的記錄為例，在Excel 2016 中的具體操作如下：第一步，選擇“Title-題名”所在列，點擊“數(shù)據(jù)”選項卡→“篩選”按鈕，再點擊題名列旁的下拉菜單→“文本篩選”→“不包含”；第二步，在彈出的對話框中，輸入關(guān)鍵字“稿約”即可。

1.2.3 去除新聞類無效記錄

常常遇到類似于“熱烈慶?！禭X》又上新臺階”“某某系統(tǒng)通過技術(shù)鑒定”這種與研究主題相關(guān)的文獻記錄。其內(nèi)容或是簡單的新聞介紹，或是科普性說明，沒有太多學(xué)術(shù)價值，也要去除。這類文獻記錄一般沒有作者或是“本刊訊”。因此對作者字段進行文本篩選，去除關(guān)鍵字為空或“本刊訊”的記錄，在Excel 2016中的具體操作如下：第一步，選擇“Author-作者”所在列，點擊“數(shù)據(jù)”選項卡→“篩選”按鈕，再點擊作者列旁的下拉菜單→去除“空白”復(fù)選框前鉤；第二步，與前面所述不包括關(guān)鍵字文本篩選操作一樣，且把關(guān)鍵字設(shè)置為“本刊訊”。

雖然上述Excel 2016數(shù)據(jù)預(yù)處理的方法也可用于Excel 2010 版本，但從目前檢索到的文獻來看，之前研究者僅使用Excel“高級篩選”功能去除完全相同的記錄來進行數(shù)據(jù)預(yù)處理，而這種方法在實際操作中作用不大。因為隨著學(xué)術(shù)不端檢測手段越來越先進，原文抄襲或大段文字抄襲變得越來越少［4］。

2 數(shù)據(jù)分析處理

2.1 年份分布

Excel 2010 采用“Countif”函數(shù)或數(shù)據(jù)透視表來實現(xiàn)年份分布的統(tǒng)計，其中數(shù)據(jù)透視表的操作更為便捷［5］。之前研究者直接對年份字段進行統(tǒng)計，然而在使用過程中會發(fā)現(xiàn)有些文獻記錄無法在“Year-年”字段顯示相應(yīng)年份，這樣會造成某些有效記錄沒有被統(tǒng)計到。進一步研究發(fā)現(xiàn)，在“PubTime-發(fā)表時間”字段不會缺失，且字段的左側(cè)前四個數(shù)字為發(fā)表的年份。因此先使用Excel2016 自動篩選功能篩選出年份字段為空白的文獻記錄，再在“年份”單元格中輸入函數(shù)“=left（發(fā)表時間字段的單元格內(nèi)容，4）”獲得發(fā)表年份，最后使用數(shù)據(jù)透視表統(tǒng)計每一年的發(fā)表數(shù)量。

以人工智能在醫(yī)學(xué)領(lǐng)域應(yīng)用的文獻分析為例，采用上述改進方法可得我國人工智能在醫(yī)學(xué)領(lǐng)域的應(yīng)用研究情況（1981—2018 年），總體上呈現(xiàn)出階梯式增長趨勢，并由此劃分為嘗試期、起步期、發(fā)展期三個發(fā)展階段。

綜上所述，對比Excel 2016 與Excel 2010 版本的操作得到表2，Excel 2016效果更好。

表2 不同版本年份分布處理效果比較

2.2 研究熱點

2.2.1 詞頻統(tǒng)計

詞頻統(tǒng)計是熱點研究分析的基本方法，通過關(guān)鍵詞分列和關(guān)鍵詞統(tǒng)計兩步操作來實現(xiàn)［5］。

對比Excel 2016 與Excel 2010 版本的操作得到表3。由表3 可知，Excel 2010 因不能去除關(guān)鍵詞之間的多個相同分隔符而產(chǎn)生許多無效的空白列，增加了要處理的數(shù)據(jù)量。若在分列前先將它們統(tǒng)一轉(zhuǎn)換為同一個有效分隔符，則可以避免上述問題。Excel 2016 在分列前使用了“查找替換”實現(xiàn)了上面設(shè)想，改進了關(guān)鍵詞分列操作。

表3 不同版本詞頻統(tǒng)計分析比較

由表3 可知，Excel 2010 版本進行關(guān)鍵詞統(tǒng)計不僅會隨著關(guān)鍵詞列數(shù)變多而變得繁瑣，而且會保留許多字段值為空的數(shù)據(jù)，例如將多列逐個復(fù)制首尾相連成一列的操作。假設(shè)關(guān)鍵詞有n列，則需要執(zhí)行n-1列復(fù)制步驟才能將所有關(guān)鍵詞排列成一列。而使用Excel 2016的逆透視列功能可輕松實現(xiàn)相連成一列的效果。即選中所有的關(guān)鍵詞，點擊“數(shù)據(jù)”選項卡→點擊“從表格”→進入“查詢編輯器”→點擊“轉(zhuǎn)換”選項卡→點擊“逆透視列”下拉列表中的“逆透視列”選項→選中“屬性”所在列→點擊“開始”選項卡→點擊“刪除列”按鈕→點擊“關(guān)閉并上載”按鈕→得到最后結(jié)果。這個方法不僅快捷而且能自動將字段值為空的數(shù)據(jù)去除掉。

2.2.2 高頻詞

高頻詞能提供定量和定性的分析，突顯出過去和現(xiàn)在研究領(lǐng)域的熱點，是一種重要的研究數(shù)據(jù)［6］。高頻詞的確定分三步實現(xiàn)。第一步用高低頻詞界定公式，確定高頻詞的閥值；第二步按關(guān)鍵詞統(tǒng)計計數(shù)結(jié)果降序排列；第三步確定高頻詞范圍［5］。在實際操作過程中后兩步可以簡化改進為直接用高級篩選功能一次實現(xiàn)。

為了分析人工智能在醫(yī)學(xué)領(lǐng)域應(yīng)用不同階段的研究熱點變化，現(xiàn)將關(guān)鍵詞按三個不同發(fā)展階段分類并逐個分析。以起步期的關(guān)鍵詞為例，經(jīng)數(shù)據(jù)透視表對關(guān)鍵詞頻次統(tǒng)計可得關(guān)鍵詞出現(xiàn)1 次數(shù)量為673。按照高低頻詞界定公式：÷ 2，其中I1指只出現(xiàn)過1 次的關(guān)鍵詞數(shù)量，T為高頻詞中的最低閾值［7］。故I1為673，T值為36.19，四舍五入閥值為36。

下面用“高級篩選”獲得高頻詞，具體操作如下：點擊“數(shù)據(jù)”選項卡→點擊“排序和篩選”組中的“高級”按鈕→進入“高級篩選”詳細(xì)設(shè)置，其中列表區(qū)域選擇前面數(shù)據(jù)透視表數(shù)據(jù)，條件區(qū)域設(shè)置為“頻次大于等于36”→“確定”按鈕，得到兩個高頻詞：人工智能和專家系統(tǒng)。

由于得到高頻詞數(shù)量太少難以分析研究熱點，故選擇占總詞頻20%以上的關(guān)鍵詞為高頻關(guān)鍵詞，即選擇頻次前20%的關(guān)鍵詞為高頻詞［8］。具體操作步驟如下：選擇要操作的數(shù)據(jù)，再點擊“數(shù)據(jù)”選項卡→點擊“排序和篩選”組中的“篩選”按鈕→點擊“頻次”選項卡→點擊“數(shù)字篩選”→點擊“前10 項”→設(shè)置篩選條件前20%→點擊“確定”按鈕，篩選出符合要求的高頻詞。

2.2.3 共詞矩陣

采用Excel 2010 構(gòu)建共詞矩陣分三步實現(xiàn)。第一步清除低頻詞；第二步形成高頻詞兩兩組隊；第三步構(gòu)建矩陣［5］。若使用Excel 2016來實現(xiàn)，則操作更為簡便，效率更高。但這個新辦法需要改變上面的操作次序，兩兩組隊即高頻詞兩兩配對，形成兩列高頻詞隊；第二步清除低頻詞；第三步構(gòu)建矩陣。

（1）形成高頻詞兩兩組隊。對比Excel 2016與Excel 2010版本的操作得到表4。由表4可知，Excel 2010高頻詞兩兩組隊分兩步實現(xiàn)。第一步先以第二關(guān)鍵詞為主關(guān)鍵詞進行排序，將第二個關(guān)鍵詞中為空白的條目刪除。這樣可以將空白條目和單一關(guān)鍵詞刪除；第二步使用復(fù)制粘貼的辦法，將所有關(guān)鍵詞列兩兩組合并首尾相連成兩列關(guān)鍵詞［5］。假設(shè)有n列關(guān)鍵詞，任取2列，其組合共有種，需進行次首尾相連。以起步期的關(guān)鍵詞為例，總共有18 列，共有種組合，需進行153 次兩兩配對，152 次首尾相連復(fù)制粘貼。上面整個操作過程繁瑣，且容易出錯，而使用Excel 2016“逆透視列”和“多個工作表合并”的操作則不同。具體操作如下：第一步“逆透視列形成兩兩數(shù)列”。單擊關(guān)鍵詞列表區(qū)域任意單元格，再依次點擊“數(shù)據(jù)”選項卡→點擊“從表格”→進入“查詢編輯器”→選中“關(guān)鍵詞2”，再按住shift鍵不放，點擊最后列（這樣選擇了除“關(guān)鍵詞1”以外所有列）→點擊“轉(zhuǎn)換”選項卡→點擊“逆透視列”下拉列表中的“逆透視列”選項→選中“屬性”所在列→點擊“開始”選項卡→點擊“刪除列”按鈕→點擊“關(guān)閉并上載”按鈕→得到最后結(jié)果，并導(dǎo)出到新工作表中。這個操作結(jié)果能在直接清除空白條目和單一關(guān)鍵詞條目的同時，得到第一列關(guān)鍵詞與其他列關(guān)鍵詞配對成的兩兩數(shù)列。若想得到第二列關(guān)鍵詞與其他列關(guān)鍵詞配對成的兩兩數(shù)列，只需將第一列關(guān)鍵詞刪除掉，重復(fù)上面操作即可。由于最后兩列關(guān)鍵詞已經(jīng)配對，不需要使用“逆透視列”操作，故n列關(guān)鍵詞實際只需進行n-2 次“逆透視列”操作，產(chǎn)生n-2個新工作表。加上最后兩列關(guān)鍵詞配對的工作表，共有n-1個工作表，需n-2次首尾相連復(fù)制粘貼才能合并在一起（以起步期的關(guān)鍵詞為例，總共有18 列，需進行16 次“逆透視列”操作，產(chǎn)生16 個新工作表，將17 個工作表合并在一起，需16次首尾相連復(fù)制粘貼）。這樣將n-1 個工作表合并在一起，也是一個繁瑣操作。而使用Excel 2016的第二步“多個工作表合并”操作可解決上面問題。具體操作如下：點擊“數(shù)據(jù)”選項卡→點擊“新建查詢”→“從工作簿”→選擇工作簿→啟動工作表合并導(dǎo)航器，點選“選擇多項”→在要合并的工作表前打鉤→點擊“編輯”按鈕→“開始”選項卡→點擊“追加查詢”→點選“三個或更多表”→再次選擇要追加查詢的工作表→點擊“確定”按鈕→點擊“關(guān)閉并上載”按鈕→得到多工作表合并最終結(jié)果。Excel 2016“多個工作表合并”優(yōu)點在于不受工作表數(shù)量限制，直接首尾相連合并成兩列關(guān)鍵詞。

表4 不同版本構(gòu)建共詞矩陣分析比較

（2）清除低頻詞。Excel 2010 篩選出高頻詞的方法是先在每一列之后新建一空白列，再使用VLOOKUP函數(shù)找出與之匹配的高頻詞。其中低頻詞后面對應(yīng)著“#N/A”，高頻詞后面對應(yīng)著內(nèi)容與高頻詞相同的詞。再任取一列利用“排序”將值為“#N/A”的行全部排在一起，最后刪除這些行，得到這一列的高頻詞。其它列的高頻詞也是這樣操作得到的［5］。如前所述，第一步是清除低頻詞，而關(guān)鍵詞列數(shù)越多則處理次數(shù)也越多。假設(shè)有n列關(guān)鍵詞，每一列需在其后新建一空白列一次，使用VLOOKUP 函數(shù)一次，排序并刪除低頻詞一次，則總共需要4×n步才能完成。以起步期的關(guān)鍵詞為例，需要處理18 次，共72 步才能清除低頻詞。由于應(yīng)用Excel 2016新辦法的操作次序發(fā)生變化，使得實際處理的關(guān)鍵詞列數(shù)只有2列，此時再使用“高級篩選”就可得到高頻詞列。具體操作如下：點擊“數(shù)據(jù)”選項卡→點擊“排序和篩選”組中的“高級”按鈕→進入“高級篩選”詳細(xì)設(shè)置，其中列表區(qū)域為原始數(shù)據(jù)，條件區(qū)域為兩列高頻詞→“確定”按鈕。

（3）構(gòu)建矩陣。將得到的高頻詞隊列交叉復(fù)制到列下，形成新的高頻詞隊列；再對其使用“數(shù)據(jù)透視表”分析可得共詞矩陣。具體操作：將高頻詞隊列和高頻詞交叉后的隊列分別存放在兩個工作表中，再使用“多個工作表合并”將他們合并成一個隊列，最后使用“數(shù)據(jù)透視表”分析得到共詞矩陣。

3 結(jié)語

從海量的科技文獻中挖掘有效信息是科技創(chuàng)新的關(guān)鍵任務(wù)之一，因此也成為科研人員及其管理者關(guān)注的焦點［9］。通過共詞分析來揭示領(lǐng)域研究熱點是常用的文獻分析方法。對比Excel 2010，使用Excel 2016 進行共詞分析可以減少文獻計量工作量，提高數(shù)據(jù)挖掘的效率，降低了使用的技術(shù)門檻［10］。