摘要 設(shè)計(jì)一個(gè)面向?qū)W科的主題分析模型,提出采用計(jì)算機(jī)語言學(xué)進(jìn)行分詞、自動(dòng)摘要、分類與關(guān)鍵詞統(tǒng)計(jì)等對(duì)教育技術(shù)學(xué)專業(yè)文獻(xiàn)進(jìn)行主題分析的方法;對(duì)專業(yè)教材進(jìn)行分析,構(gòu)建學(xué)科主題詞庫,并利用學(xué)科語料庫對(duì)專業(yè)文獻(xiàn)進(jìn)行主題分析,為教育技術(shù)學(xué)發(fā)展趨勢的文獻(xiàn)研究提供一種方法。
關(guān)鍵詞 信息檢索;主題分析;詞頻分析;文獻(xiàn)研究;主題詞
中圖分類號(hào):G40-057 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-489X(2010)03-0010-02
Research on Thematic Analysis in Professional Literature Analysis of Education Technology//Zhou Lian, Liu Qingtang, Zhou Xudong, Han Shuyun
Abstract The paper, which designs a subject-oriented thematic analysis model, provides an idea of using computer language to do word segmentation, auto-abstract, classification and key words statistic in order to analyze the theme of professional literature in education technology. Besides, it constructs subject thesaurus and makes use of corpora to analyze professional literature which brings a new sight for literature research of education technology.
Key words information retrieval; thematic analysis; word frequency analysis; literature research; descriptor
Author’s address
1 Department of Information Technology, Huazhong Normal University, Wuhan, China 430079
2 Engineering Research Center for Education Information Technology, Huazhong Normal University, Wuhan, China 430079
1 引言
文獻(xiàn)研究法[1]是指根據(jù)一定的研究目的或課題需要,通過查閱文獻(xiàn)來獲得相關(guān)資料,全面地、正確地了解所要研究的問題,找出事物的本質(zhì)屬性,從中發(fā)現(xiàn)問題的一種研究方法。目前,教育技術(shù)學(xué)文獻(xiàn)研究主要是運(yùn)用文獻(xiàn)統(tǒng)計(jì)分析,利用統(tǒng)計(jì)學(xué)方法對(duì)文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,以數(shù)據(jù)來描述和揭示文獻(xiàn)的數(shù)量特征和變化規(guī)律,從而達(dá)到一定研究目的的一種研究分析方法。文獻(xiàn)統(tǒng)計(jì)分析[2]的現(xiàn)實(shí)意義主要表現(xiàn)在2個(gè)方面。一方面,它是文獻(xiàn)定量研究的基礎(chǔ)和條件。對(duì)各個(gè)學(xué)科、各種類型的文獻(xiàn),以各種不同的方式進(jìn)行的文獻(xiàn)定量分析研究,都離不開文獻(xiàn)的統(tǒng)計(jì)數(shù)據(jù)。文獻(xiàn)統(tǒng)計(jì)是文獻(xiàn)研究的基礎(chǔ)工作,文獻(xiàn)數(shù)據(jù)是開展文獻(xiàn)研究的必要條件。另一方面,它能揭示文獻(xiàn)的量變規(guī)律。通過對(duì)文獻(xiàn)的統(tǒng)計(jì)分析,能夠反映出文獻(xiàn)的增長變化、分布特征、流通狀況,以數(shù)據(jù)來揭示文獻(xiàn)的數(shù)量變化規(guī)律[3]。
目前,國內(nèi)外很多人都采用該方法來研究某領(lǐng)域的論文產(chǎn)出與分布、發(fā)展?fàn)顩r、研究熱點(diǎn)的變遷以及發(fā)展方向。我國已經(jīng)開始有人對(duì)遠(yuǎn)程教育雜志做文獻(xiàn)內(nèi)容分析,比如殷丙山等人的《中國遠(yuǎn)程教育學(xué)術(shù)研究現(xiàn)狀——基于專業(yè)學(xué)術(shù)期刊的分析》(2005),張秀梅的《我國遠(yuǎn)程教育學(xué)科研究發(fā)展概觀》(2005)等。對(duì)雜志做內(nèi)容分析有助于反思學(xué)科發(fā)展動(dòng)態(tài),提供進(jìn)一步的研究方向。
本文主要利用能夠揭示或表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞在某一領(lǐng)域文獻(xiàn)中出現(xiàn)的頻次高低,來確定該領(lǐng)域研究熱點(diǎn)和發(fā)展方向的文獻(xiàn)計(jì)量方法。首先構(gòu)建面向?qū)W科的主題分析模型;其次為了提高分析的精度,構(gòu)建主題詞集;最后將主題詞集運(yùn)用到分詞與索引中,并進(jìn)行統(tǒng)計(jì)分析。
2 面向?qū)W科的主題分析模型研究
面向?qū)W科的主題分析是通過對(duì)文獻(xiàn)的標(biāo)題、摘要、關(guān)鍵詞、內(nèi)容等4方面進(jìn)行主題詞詞頻統(tǒng)計(jì)分析,來分析專業(yè)文獻(xiàn)的特征,推斷其發(fā)展趨勢和研究熱點(diǎn)等。面向?qū)W科的主題分析是基于內(nèi)容的,需要對(duì)文獻(xiàn)的內(nèi)容進(jìn)行分析處理,通常的方法是計(jì)算機(jī)語言學(xué)方法。一篇文獻(xiàn)的核心是其內(nèi)容的濃縮和提煉,是通過主題詞表現(xiàn)的。面向?qū)W科的主題分析模型如圖1所示。
該模型主要設(shè)計(jì)文檔庫、主題詞集、學(xué)科語料庫、索引庫。由于CNKI比較全面地匯集了國內(nèi)出版的學(xué)術(shù)期刊,其論文內(nèi)容基本涵蓋了學(xué)科專業(yè)的發(fā)展動(dòng)向和研究熱點(diǎn),因此選擇這一統(tǒng)計(jì)源具有典型的意義[4]。本文首先用網(wǎng)絡(luò)爬蟲將每篇論文的標(biāo)題、摘要、關(guān)鍵詞[5]、內(nèi)容4個(gè)方面分別錄入文檔庫,并進(jìn)行文檔解析。其次用分詞工具對(duì)解析后的標(biāo)題、摘要、關(guān)鍵詞、內(nèi)容4方面分別進(jìn)行分詞。這里構(gòu)建主題詞集,它主要加入學(xué)科的專業(yè)詞匯,從而提高分詞的精確度。然后將分詞的結(jié)果進(jìn)行統(tǒng)計(jì)分析。最后對(duì)統(tǒng)計(jì)的結(jié)果和文檔解析后的自動(dòng)文摘建立索引,索引結(jié)果放入索引庫。
3 主題詞集
教育技術(shù)專業(yè)主題詞集主要由其8門主干課程及專業(yè)學(xué)術(shù)期刊構(gòu)成。8門主干課程為教育技術(shù)學(xué)、教學(xué)系統(tǒng)設(shè)計(jì)、教育技術(shù)學(xué)研究方法、遠(yuǎn)程教育學(xué)、教育信息處理、信息技術(shù)與教育、網(wǎng)絡(luò)教育應(yīng)用教程、教學(xué)媒體的理論與實(shí)踐。專業(yè)學(xué)術(shù)期刊為2008年《電化教育研究》,共245篇論文。
根據(jù)國家標(biāo)準(zhǔn)GB/T 13745-92(《學(xué)科分類與代碼》),將教育技術(shù)學(xué)學(xué)科分為4個(gè)方面:1)教育技術(shù)學(xué)基礎(chǔ)理論;2)教育技術(shù)學(xué)應(yīng)用基礎(chǔ);3)教育環(huán)境及系統(tǒng)開發(fā);4)應(yīng)用實(shí)踐類。
例如,將教育技術(shù)學(xué)基礎(chǔ)理論類劃分為教育技術(shù)學(xué)基礎(chǔ)和教育技術(shù)研究方法等。如表1所示,教育技術(shù)學(xué)基礎(chǔ)主要概括為2個(gè)對(duì)象5個(gè)范疇,約30多個(gè)核心詞匯集。表2表示教育技術(shù)學(xué)研究方法的核心詞匯集,包括經(jīng)驗(yàn)方法、理論方法、系統(tǒng)科學(xué)方法和專門研究法,包括30多個(gè)核心詞匯集。
共收錄教育技術(shù)學(xué)主題詞2 352個(gè),這里只列舉部分主題詞。主題詞集應(yīng)用在分詞中,并納入學(xué)科語料庫。
4 主題分析法的應(yīng)用與評(píng)價(jià)
本文選用教育技術(shù)學(xué)專業(yè)的核心雜志《電化教育研究》,主要將2008年共245篇論文作為數(shù)據(jù)源。從每篇論文的標(biāo)題、摘要、關(guān)鍵詞、內(nèi)容4個(gè)方面分別入庫,用分詞工具對(duì)入庫的標(biāo)題、摘要、關(guān)鍵詞、內(nèi)容4方面分別進(jìn)行分詞,然后對(duì)分詞結(jié)果進(jìn)行統(tǒng)計(jì)分析。統(tǒng)計(jì)出每個(gè)詞出現(xiàn)的總次數(shù),并從高頻到低頻進(jìn)行排序。最后對(duì)統(tǒng)計(jì)的結(jié)果建立索引。將出現(xiàn)頻率高的作為主題詞,通過詞頻分析描述該專題學(xué)術(shù)研究狀況,進(jìn)而揭示教育技術(shù)學(xué)的研究熱點(diǎn)和發(fā)展趨勢。
評(píng)估關(guān)鍵詞提取系統(tǒng)的2個(gè)指標(biāo)準(zhǔn)確率precision和查全率recall。準(zhǔn)確率是所有提取的關(guān)鍵詞與人工提取結(jié)果吻合的關(guān)鍵詞所占的比率,其數(shù)學(xué)公式為:準(zhǔn)確率=提取正確的關(guān)鍵詞數(shù)/實(shí)際提取的關(guān)鍵詞數(shù)。查全率是所提取關(guān)鍵詞結(jié)果與人工提取關(guān)鍵詞結(jié)果的吻合比率,其數(shù)學(xué)公式為:查全率=提取正確的關(guān)鍵詞數(shù)/人工提取的關(guān)鍵詞數(shù)。
這里統(tǒng)計(jì)分析的處理方法是:剔除不相關(guān)和無意義的詞;出現(xiàn)同義詞時(shí),將同義詞分別統(tǒng)計(jì)后合并[6]。經(jīng)過對(duì)教育技術(shù)學(xué)專業(yè)的核心雜志《電化教育研究》的統(tǒng)計(jì)發(fā)現(xiàn),出現(xiàn)頻率較高的詞匯如表3所示。
從表3中可看出,信息技術(shù)、信息化、多媒體等都是頻率出現(xiàn)比較高的詞匯。通過教育技術(shù)學(xué)分類條目與主題詞間的關(guān)系,根據(jù)教育技術(shù)學(xué)的發(fā)展方向,推測教育技術(shù)學(xué)在教育技術(shù)學(xué)應(yīng)用基礎(chǔ)中的多媒體、網(wǎng)絡(luò)及應(yīng)用實(shí)踐類中的計(jì)算機(jī)教育,都是研究的熱點(diǎn)。
5 小結(jié)
利用主題分析法,采用詞頻統(tǒng)計(jì),對(duì)2008年《電化教育研究》共245篇論文中的標(biāo)題、摘要、關(guān)鍵詞、內(nèi)容4方面選取頻率高的作為主題詞并收入到原有的分詞詞典中。其次將每篇論文的標(biāo)題、摘要、關(guān)鍵詞、內(nèi)容4個(gè)方面分別入庫,然后進(jìn)行分詞、統(tǒng)計(jì)、分類,從而揭示教育技術(shù)學(xué)的研究熱點(diǎn)。本論文選取的樣本只是2008年《電化教育研究》,后階段為了使研究更為精確,需要擴(kuò)大樣本選取的范圍,如《中國教育技術(shù)裝備》《中國電化教育》《遠(yuǎn)程教育》《現(xiàn)代教育技術(shù)》等。
參考文獻(xiàn)
[1]宋巧枝,方曙.基于文獻(xiàn)統(tǒng)計(jì)分析法的專利計(jì)量分析研究[J].現(xiàn)代情報(bào),2008(2)
[2]萬江平,何振輝,鄭楚衛(wèi).基于詞頻法的我國軟件質(zhì)量研究主題分析[J].情報(bào)雜志,2007(10)
[3]陳太洋.1996年—2005年我國教育信息化文獻(xiàn)計(jì)量分析[J].圖書館理論與實(shí)踐,2006(6)
[4]劉海蘭.通過詞頻分析看文獻(xiàn)標(biāo)引與編目發(fā)展及其研究熱點(diǎn)[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2008,20(3)
[5]李文蘭,楊祖國.中國情報(bào)學(xué)期刊論文關(guān)鍵詞詞頻分析[J].情報(bào)科學(xué),2005,23(l)
[6]蒼宏宇,譚宗穎.國內(nèi)外信息檢索研究熱點(diǎn)分析——基于Z-Score標(biāo)準(zhǔn)化的詞頻[J].圖書館建設(shè),2009(1)