劉金花
(山西醫(yī)科大學(xué)汾陽學(xué)院衛(wèi)生信息管理系,汾陽 032200)
領(lǐng)域性科研機構(gòu)的研究熱度評價方法
劉金花
(山西醫(yī)科大學(xué)汾陽學(xué)院衛(wèi)生信息管理系,汾陽032200)
科學(xué)技術(shù)的高速發(fā)展促使科技文獻知識的研究也日益專門化,作為創(chuàng)新主體的科研工作者他們對快速獲取有用的信息和知識變的更為迫切,在現(xiàn)實情況中,通過查找關(guān)鍵詞在電子檢索系統(tǒng)檢索到的相關(guān)文獻成千上萬篇。很多準備從事科研工作的人員,希望能夠?qū)δ骋豢蒲蓄I(lǐng)域的主要研究機構(gòu)有一個完整的、具體的認識;然后決定奔赴哪個科研機構(gòu)學(xué)習(xí)或者是增加與哪個科研機構(gòu)的學(xué)術(shù)交流等。
本文提出了科技文獻科研機構(gòu)的熱度挖掘方法,文中綜合考慮了某領(lǐng)域研究機構(gòu)中研究人員的數(shù)量、發(fā)表文章的數(shù)量和學(xué)術(shù)水平三方面的因素,對科研機構(gòu)在給定領(lǐng)域的研究熱度進行打分。然后用同樣的評價方法獲得每個機構(gòu)在各個時間段的研究熱度值,我們就可以清晰的看出各個研究機構(gòu)在給定領(lǐng)域的研究熱度趨勢,以便預(yù)測將來的發(fā)展趨勢。
1.1數(shù)據(jù)來源
本文研究的數(shù)據(jù)來源于1999-2010年的中國學(xué)術(shù)期刊網(wǎng)站,以“機器翻譯”作為搜索的關(guān)鍵詞搜索文獻。選取其中被引用頻次超過一次(包含一次)的文獻,抽取了文獻數(shù)據(jù)中的論文標題、作者、摘要、標題、研究機構(gòu)、發(fā)表時間、被引用頻次、被下載頻次、分類編號等10個字段,導(dǎo)入到MySQL數(shù)據(jù)庫中。舍棄被引頻次小于1的文獻,是因為沒有引用頻次的文章我們可以認為這些文獻的學(xué)術(shù)價值是比較低的,并且沒有引用頻次的文獻大都不是來自主流的期刊和會議。
1.2文獻機構(gòu)信息統(tǒng)計
對于每篇文章所隸屬的研究機構(gòu)進行統(tǒng)計,因為論文的研究機構(gòu)署名在不同的階段單位名稱會有稍微的差別,但是其實都屬于一個研究單位,例如:“中國科學(xué)院自動化研究所”,有時候也簡稱為“中科院自動化研究所”。所以本文在統(tǒng)計機構(gòu)信息時,對這些機構(gòu)單位進行了統(tǒng)一處理,將同一所大學(xué)的整理為同一個研究機構(gòu)。我們對本文的實驗數(shù)據(jù)的機構(gòu)信息及其所在1999-2010這12年間發(fā)表的文章數(shù)量做了統(tǒng)計,在“機器翻譯”領(lǐng)域發(fā)表的文章中,署名的機構(gòu)數(shù)總共有688個,大部分是高等院校,還有一些研究所等。表1中只列出了發(fā)文數(shù)量超過20(包括20)篇的研究機構(gòu)。
由于絕大多數(shù)的人都關(guān)心的是某一領(lǐng)域中的核心研究機構(gòu),因為這些機構(gòu)的研究人員和發(fā)文數(shù)量都是非常高的,故我們在對研究機構(gòu)進行熱度評價之前,可以進行一些過濾操作以確定主要的研究機構(gòu),然后再對這些主要的研究機構(gòu)進行研究熱度值評價。另外,各個研究機構(gòu)對該領(lǐng)域研究熱度可以通過該機構(gòu)發(fā)表的論文數(shù)量、研究人員數(shù)量等信息來反映出來,但是一般反映一個研究機構(gòu)的學(xué)術(shù)研究水平及研究的深度,僅僅通過數(shù)量是不夠的,還應(yīng)該考慮到該機構(gòu)發(fā)表論文的質(zhì)量。因此研究機構(gòu)的熱度分析可以按照以下流程進行,如圖1所示。
圖1 研究機構(gòu)熱度分析流程圖
表1文獻的機構(gòu)信息及發(fā)文數(shù)量統(tǒng)計
2.1主要研究機構(gòu)的確定
一般情況下,一個研究機構(gòu)發(fā)表的論文數(shù)量越多,說明該機構(gòu)對該領(lǐng)域的研究越深入,但是不能忽略掉一個因素——研究人員的數(shù)量。如果一個研究機構(gòu)A在某一領(lǐng)域總共發(fā)表了論文數(shù)為100篇,但是A機構(gòu)中的研究人員數(shù)為20;而另外一個研究機構(gòu)B在該領(lǐng)域發(fā)表的論文數(shù)為20篇,但是B機構(gòu)的研究人員為1人次。A機構(gòu)與B機構(gòu)的人均發(fā)文量是一樣的,我們該認為哪個機構(gòu)更有影響力?通常我們會認為機構(gòu)A比B更有影響力。為了避免這種情況的大量發(fā)生,本文采取了對研究機構(gòu)進行初步篩選的過程,過濾掉那些機構(gòu)中研究人員特別少的或者是發(fā)表的論文數(shù)量特別少。制定的研究機構(gòu)過濾準則如下:
(1)如果一個機構(gòu)的研究人員的數(shù)量少于12,則去掉該機構(gòu)。
(2)如果一個機構(gòu)的發(fā)文數(shù)量少于12(包含12),則去掉該機構(gòu)。
為了保證在12年間年均研究人員數(shù)是1人,年均發(fā)文量是1。述兩條過濾準則的中提到的閾值都設(shè)為12。在上文已經(jīng)對文獻機構(gòu)信息進行了統(tǒng)計共有688個機構(gòu),按照上述研究機構(gòu)的過濾準則進行初步的過濾之后,剩下了31個研究機構(gòu)。
另外,一個研究機構(gòu)在某領(lǐng)域的研究水平,僅僅通過論文數(shù)量和人員數(shù)量是不行的,如果一個研究機構(gòu)研究人員壯大,但是發(fā)表了一堆沒有什么含金量的文章,那么我們也不能認為該機構(gòu)是非常有影響力的機構(gòu)。一般來說被引用頻次是評價學(xué)術(shù)論文學(xué)術(shù)質(zhì)量的重要指標,如果一個機構(gòu)發(fā)表的論文的引用頻次越高越能體現(xiàn)出該機構(gòu)的學(xué)術(shù)研究質(zhì)量,在一定程度上發(fā)表的論文的被引用頻次、篇均被引頻次能說明該機構(gòu)的研究水平。下面對各個研究機構(gòu)的人員分布和被引用情況的統(tǒng)計,表中列出了去掉了篇均被引率小于14的機構(gòu)。
表2機器翻譯領(lǐng)域主要的研究機構(gòu)
2.2機構(gòu)的研究熱度評價方法
當(dāng)我們確定了該研究領(lǐng)域的核心研究機構(gòu)之后,接下來制定評價一個研究機構(gòu)對某一領(lǐng)域的研究熱度值,不光要考慮該機構(gòu)投入的研究人員數(shù)量,還應(yīng)該考慮該機構(gòu)的產(chǎn)出量和學(xué)術(shù)水平,故本文綜合了這三個因素來評價某一研究機構(gòu)對特定領(lǐng)域的研究熱度,如公式(1):
其中Hot(Oi)表示機構(gòu)Oi的研究熱度值,persons(Oi)表示機構(gòu)Oi的研究人員總數(shù),papers(Oi)表示機構(gòu)Oi發(fā)表的論文總數(shù),cited(Oi)表示機構(gòu)Oi的文獻被引用的總次數(shù),m是已確定的核心研究機構(gòu)的個數(shù)。因為公式(1)中三部分都是一個比例關(guān)系,這種比例值有時候會出現(xiàn)非常小甚至趨向于零的情況,因此為了計算的準確性本文在計算的過程中對最終的熱度值Hot (Oi)進行了取對數(shù)操作。
表3 1999-2010年各個研究機構(gòu)機器翻譯領(lǐng)域的研究熱度值
表3是本文根據(jù)上述的熱度計算公式計算的在1999-2010這12年機器翻譯領(lǐng)域各個研究機構(gòu)的熱度值。從表中來看,排在前幾位的研究機構(gòu)確實是在人員投入、發(fā)文的數(shù)量和質(zhì)量方面都是比較高的,因此,用本文提出的對研究機構(gòu)的熱度值打分的方法一定程度上是有效的,但是對于排名靠后的機構(gòu)的次序就不確定是否準確。
2.3研究機構(gòu)研究熱度趨勢變化
類似的我們可以計算某一研究機構(gòu)在不同年度的研究熱度值,這樣就可以描繪出該研究機構(gòu)在該領(lǐng)域的研究熱度曲線圖。通過這個熱度變化趨勢可以進一步預(yù)測在接下來的時間內(nèi),該機構(gòu)在該領(lǐng)域的研究趨勢是處于較高狀態(tài)還是較低的狀態(tài)。如圖2所示,是我們選取的五個主要的研究機構(gòu)在“機器翻譯”領(lǐng)域的研究熱度曲線圖。從圖中趨勢就可以預(yù)測在未來的幾年之內(nèi)中科院在機器翻譯領(lǐng)域的研究會一直處于比較高的狀態(tài)。
圖2 1999-2010年五個研究機構(gòu)在機器翻譯領(lǐng)域的研究熱度曲線
本文對某一領(lǐng)域文獻知識進行了研究機構(gòu)的熱挖掘工作。并且以“機器翻譯”領(lǐng)域來舉例,從實驗數(shù)據(jù)的設(shè)置到研究點的熱度分析步驟,研究機構(gòu)的熱度分析步驟都做了詳細的講解,并且對實驗的結(jié)果進行了分析,證實了此種方法在一定程度上還是可行有效的,而且用了可視化的方法展示給用戶,符合了本文研究的初衷。另外,本文的熱度挖掘方法不僅是針對機器翻譯這一領(lǐng)域的,還可以運用到其他的領(lǐng)域,只要保證數(shù)據(jù)是文獻數(shù)據(jù),并且能夠達到一定的規(guī)模,用本文提出的方法對某一領(lǐng)域的研究機構(gòu)進行熱度分析,都是可行的。另外,本文的針對科技文獻的挖掘工作都是針對下載到本地的文獻數(shù)據(jù)做的挖掘工作,但是現(xiàn)實生活中網(wǎng)絡(luò)的發(fā)達,導(dǎo)致文獻數(shù)據(jù)的更新很快,如果我們能夠針對在線的數(shù)據(jù)進行挖掘工作,并且能夠提供出可視化的熱度分析趨勢圖,那將會造福很多的科研工作者。因此,基于實時性的在線文獻挖掘工作也是將來工作的一個重點。
[1]HAN Jia-wei,Micheline Kamber,PEI Jian.數(shù)據(jù)挖掘概念與技術(shù)(原書第3版)[M].北京:機械工業(yè)出版社,2012.
[2]宗成慶.統(tǒng)計自然語言處理(第2版)[M].清華大學(xué)出版社.北京:清華大學(xué)出版社,2013.
[3]柯健,李超.我國社會科學(xué)領(lǐng)域數(shù)據(jù)挖掘研究的文獻計量分析.現(xiàn)代情報,2010,31(6):102-106.
[4]黃永煤.讀者需求分析中的數(shù)據(jù)挖掘技術(shù)[J].大學(xué)圖書情報學(xué)刊,2006,24(4):48-50.
[5]邱均平,繆雯婷.文獻計量學(xué)在人才評價中應(yīng)用的新探索[J].評價與管理,2007,2(6):1-5
Literature Mining;Research Institutions;Evaluation of Research Hot
Research Hot Degree of the Evaluation Method of Research Institutions in a Certain Field
LIU Jin-hua
(Fenyang College Shanxi Medical University,F(xiàn)enyang 032200)
1007-1423(2015)29-0045-04
10.3969/j.issn.1007-1423.2015.29.012
劉金花(1987-),女,山西汾陽人,碩士,助教,研究方向為自然語言處理、數(shù)據(jù)挖掘
2015-09-24
2015-10-07
從大量文獻中快速獲得某一領(lǐng)域的核心科研機構(gòu),對準備開展科研工作的科研人員具有極大的導(dǎo)向作用。爬取網(wǎng)上某一領(lǐng)域文獻數(shù)據(jù),綜合考慮機構(gòu)的研究人員數(shù)、發(fā)文量和被引文量,提出針對研究機構(gòu)的研究熱度的評價方法,并且對每一個研究機構(gòu)在各個時間段進行熱度評價,然后繪制出熱度趨勢圖。
文獻挖掘;研究機構(gòu);研究熱度評價
It has a great role in guiding for research staff whom preparing to carry out research work,if we can obtain the core research institutions for a given field from a large number of scientific literature rapidly.Crawls a certain field literature data from Internet,and proposes an evaluation method of research hot value for each institute considering the number of researchers,the volume of published articles and the amount of the citation comprehensively,uses a visual way to display distribution graph of the field in a certain period.