溫學兵, 姚佳宜, 王秋萍
(1. 沈陽師范大學 學報編輯部, 沈陽 110034;2. 沈陽師范大學 數(shù)學與系統(tǒng)科學學院, 沈陽 110034;3. 沈陽師范大學 國際教育學院, 沈陽 110034)
科學知識圖譜((mapping knowledge domain)是通過將應用數(shù)學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現(xiàn)分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發(fā)展歷史、前沿領域以及整體知識架構達到多學科融合目的的現(xiàn)代理論[1-3]。計算語言學通過建立形式化的數(shù)學模型,分析、處理自然語言,并在計算機上用程序來實現(xiàn)分析和處理的過程,從而達到以機器來模擬人的部分乃至全部語言能力的目的[4-6]。字母詞研究是計算語言學的一個重要研究領域,從1982年第一篇中文研究文獻發(fā)表開始,眾多學者進行了深入研究,產(chǎn)生了大量的研究文獻[7-10]。CiteSpace是陳超美博士研發(fā)的一款功能強大的科學知識圖譜工具,它的問世大大推動了科學知識圖譜方法在文獻計量中的應用[11-15]。本文對計算語言學中的字母詞文獻進行了梳理統(tǒng)計,給出了圖文并茂的可視化分析。
本文研究對象為計算語言學中關于字母詞研究的文獻,量化數(shù)據(jù)來自中國知網(wǎng)(CNKI)數(shù)據(jù)庫。本文檢索方式設定為“高級”,主題設定為“字母詞”,時間段設定為1982—2020年,選擇文獻語種為中文,剔除新聞報道、消息等無效文獻,最終得到有效文獻1 197篇。其中,期刊文獻802篇,博、碩論文258篇,報紙文獻49篇,學術輯刊35篇,國內(nèi)會議文獻51篇,國際會議文獻2篇。
本文將運用可視化軟件CiteSpace對字母詞研究文獻進行計量學分析。CiteSpace軟件是陳超美教授開發(fā)的基于JAVA平臺的可視化應用軟件,采用的是一種適于多元、分時、動態(tài)的復雜網(wǎng)絡分析的新一代信息可視化技術,在文獻統(tǒng)計上得到了越來越廣泛的應用。
各個時間段的發(fā)文量能夠即時反映出該時間段內(nèi)某些科研名詞、工具、軟件等的使用程度,折射出某一科研領域的研究熱度,有時某些相關的社會事件也會在發(fā)文量上顯著地體現(xiàn)出來。圖1是字母詞研究的發(fā)文量統(tǒng)計表。
圖1 字母詞發(fā)文量統(tǒng)計Fig.1 Statistics of the number of letter words published
由圖1可以看出,從關于字母詞研究的第一篇研究論文發(fā)表的1982—2000年,國家的改革開放還不夠深入,主要由外來詞影響產(chǎn)生的字母詞的使用還不太廣泛,這一段時間段發(fā)表相關研究文獻不多,屬于字母詞研究起步階段。從2001—2011年,字母詞進入了人們生活的方方面面,字母詞的研究討論也逐漸增多,發(fā)文量整體呈上升趨勢,屬于研究的探索階段,且文章較多關注基礎理論層面。2012年,“央視字母詞屏蔽門”事件引發(fā)了關于字母詞是否應該使用和如何使用的大討論。2012年和2013年,屬于字母詞研究的井噴階段,大量的研究和討論文獻紛紛涌現(xiàn)。從2013年以后,隨著字母詞大討論的塵埃落定,字母詞研究開始呈下降趨勢。
被引頻次是指文獻發(fā)表后被其他文獻作為參考文獻引證過的數(shù)量,該數(shù)值的多少能夠反映出某一篇文獻學術質量和社會影響力水平的高低。被引用頻次排名前10位的文獻如表1所示。
表1 被引用頻次排名前10位的文獻統(tǒng)計Table 1 Top 10 cited literatures
從文獻的被引頻次來看,劉涌泉的《關于漢語字母詞的問題》和《談談字母詞》分別被引334和246次;胡明揚的《關于外文字母詞和原裝外文縮略語問題》被引218次。一般來說,被引頻次越高,文章的學術影響力和社會影響力越大,二者成正比例關系。
從發(fā)表刊物來看,被引頻次排名前10位的文獻中,有6篇刊登在《語言文字應用》上,說明該刊是字母詞研究的主要陣地,在這一領域的研究中具有最高的影響力,學者以能把字母詞研究的成果發(fā)表在該刊為榮。
從文章內(nèi)容來看,對字母詞研究最具影響力的10篇文獻主要關注字母詞的使用和存在的問題,排名前10位的文獻中有5篇為對字母詞不同問題的探究。這些文獻都聚焦字母詞研究領域的熱點問題,對字母詞研究今后的研究方向具有引領作用。
本文運用可視化軟件CiteSpace的關鍵詞共現(xiàn)技術,將檢索到的文獻導入CiteSpaceV,設置時間跨度為1982—2020年,間隔分區(qū)時間設定為1年,節(jié)點類型設定為Key word,把閾值選為默認值,得到了關于字母詞研究關鍵詞的詞頻統(tǒng)計、中心性列表和關鍵詞共現(xiàn)圖譜(表2和圖2)。
表2 字母詞前30個高頻關鍵詞Table 2 Top 30 high frequency keywords of letter words
表2為研究文獻中排名前30位的字母詞高頻關鍵詞,排名最高的為字母詞,頻次為379,且起始于1982年,其次為外來詞和規(guī)范,頻次分別為119和100。這說明字母詞的概念含義是學者著力最多的地方。
圖2是字母詞的關鍵詞共現(xiàn)圖譜,共有節(jié)點620個,連接線1 257條。關鍵詞之間有連線代表2個關鍵詞之間是相互關聯(lián)的,且連線越粗說明2個關鍵詞的關聯(lián)程度越高;連線越細,說明關聯(lián)程度越低;無連線,說明不相關。關鍵詞之間的節(jié)點越大,說明這個關鍵詞出現(xiàn)的頻次越高。很明顯,字母詞的節(jié)點最大,即它的頻次最高,其次為外來詞和規(guī)范。展示出來的關鍵詞字體的大小代表著中心性,字體越大的節(jié)點代表其和研究主題的相關性越強。圖2顯示,字母詞、外來詞、新詞語網(wǎng)絡語言等幾個詞的字體最大,說明這些詞語與字母詞研究的相關性最強。
圖2 字母詞關鍵詞共現(xiàn)圖譜Fig.2 Key words co-occurrence map of letter words
表3 作者發(fā)文量排名前10位統(tǒng)計情況
表3給出了從事字母詞研究的學者中發(fā)文量位居前10位的統(tǒng)計數(shù)據(jù)。從表3可以看出, 中國傳媒大學博士研究生導師、國家語言資源監(jiān)測研究中心有聲媒體語言分中心主任侯敏教授發(fā)表文章位居第1位, 其博士研究生王秋萍發(fā)表文章位居第2位, 二人合計發(fā)表文章15篇, 而發(fā)文量位居前10位的作者的總發(fā)文量為56篇, 2人發(fā)文量占到26.79%。 教育部陸續(xù)設立國家語言資源監(jiān)測與研究平面媒體、網(wǎng)絡媒體、有聲媒體、教育教材、少數(shù)民族語言等中心, 每年采集逾10億字數(shù)據(jù), 為社會語言生活監(jiān)測與研究提供基礎資料。 侯敏教授研究團隊多年利用語言信息處理技術, 加上后期篩選, 從國家語言監(jiān)測語料庫中獲得年度新詞語, 并參與《中國語言生活狀況報告》編寫。 字母詞研究是其中一個研究內(nèi)容, 獲得了國家社會科學基金、教育部一般科研項目等多項國家級項目的支持, 所以產(chǎn)出了多篇研究文獻。
圖3是利用CiteSpaceV軟件給出的字母詞研究合作關系圖譜。
圖3 作者合作關系圖譜Fig.3 Network Atlas of author cooperation
從圖3可以看出,字母詞研究者之間的合作關系比較弱,也就是說,字母詞研究人員之間的合作研究行為較少,即使是師承關系的侯敏和王秋萍之間也很少。字母詞研究很多時候要利用計算機甚至是工作站進行計算,要用到統(tǒng)計學和計算數(shù)學工具,建議研究者們加強合作,也許能產(chǎn)出更好的研究成果。
本文利用文獻計量學工具CiteSpace,基于中國知網(wǎng)數(shù)據(jù)庫,對近29年的計算語言學中的字母詞研究文獻進行了梳理和統(tǒng)計,獲得了關于各階段發(fā)表文獻數(shù)量趨勢、被引頻次、熱點主題、關鍵詞共被引、合作關系網(wǎng)絡等可視化的研究狀況,對于即將從事和正在從事字母詞研究的學者有一定的參考意義。