亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)容分析法的開源軟件使用與引用研究*
        ——以Word2vec為例

        2020-03-09 02:29:22于曉彤潘雪蓮華薇娜
        圖書情報研究 2020年1期
        關(guān)鍵詞:期刊論文開源影響力

        于曉彤 潘雪蓮 華薇娜

        (南京大學信息管理學院 南京 210023)

        1 引言

        近年來,越來越多的數(shù)字成果(如軟件、數(shù)據(jù))被生產(chǎn)出來并被廣泛用于科學研究。一些學者開始呼吁重視軟件、數(shù)據(jù)等數(shù)字成果的價值[1]。學者們已經(jīng)對數(shù)據(jù)的引用、共享和再利用等很多方面進行了探討和研究[2-6],他們普遍認為規(guī)范的數(shù)據(jù)引用對數(shù)據(jù)科學的發(fā)展非常重要[7-8]。較之數(shù)據(jù),軟件對科學研究的重要性尚未得到充分重視。事實上,科學工作的每一步幾乎都受到軟件的影響。

        在眾多軟件中,開源軟件因其源碼可免費獲取、自由修改,給共享和合作創(chuàng)新帶來無限可能,因而受到學術(shù)界的廣泛關(guān)注[9]。開源軟件的出現(xiàn)改變了傳統(tǒng)的軟件開發(fā)模式和傳播方式,節(jié)省了軟件開發(fā)資源和獲取成本,推動了現(xiàn)代科學的快速發(fā)展。已有學者對開源軟件的開發(fā)動因進行相關(guān)研究,他們認為,獲得職業(yè)發(fā)展機會[10]、提升職業(yè)影響力[11]、獲得學術(shù)聲譽[12]是促使科學家開發(fā)開源軟件的主要外部動因。軟件不同于論文、專著等其他科研成果,一經(jīng)發(fā)表就無需額外的維護改進。軟件開發(fā)者需要不斷地對軟件進行維護、更新、升級以保證其持續(xù)可用。然而,在目前以出版物為主體的科研獎勵系統(tǒng)中,軟件并不能像出版物那樣獲得相應(yīng)的學術(shù)認可,參與軟件項目的科學家難以獲得其所期望的學術(shù)聲譽和職業(yè)發(fā)展機會,進而影響其開發(fā)和維護軟件的熱情[1-13]。很多開源軟件因為缺少維護而被逐漸淘汰,造成了資源浪費。因此,一些學者認為有必要對軟件影響力進行科學評價,以了解軟件開發(fā)者的學術(shù)貢獻,給予其適當科研獎勵,激勵其后續(xù)軟件開發(fā)和維護工作[14-15]。

        雖然國內(nèi)外一些研究者已經(jīng)對軟件引用和軟件學術(shù)影響力進行了研究,但是學術(shù)界對軟件學術(shù)價值的理解仍然有待深入,對軟件的使用、引用和影響力評價研究也有待推進。本研究以Word2vec[16]為例,對開源軟件在學術(shù)論文中的可見性和引用情況進行分析。軟件可見性是指軟件在學術(shù)論文中被提及程度。作者在學術(shù)論文中給予所使用軟件的開發(fā)者、版本號、存儲地址等相關(guān)信息的描述有助于評審專家和讀者快速獲取軟件對其研究內(nèi)容進行重復(fù)驗證。同時,作者按照規(guī)范對軟件進行正式引用則有利于對眾多軟件的學術(shù)影響力進行測度評價,為科研工作者查詢選擇軟件提供便利,進而提高軟件利用效率、加快科學發(fā)現(xiàn)與創(chuàng)新的步伐。

        選擇由Google公司最新推出的將詞表示為實數(shù)值向量的高效開源軟件Word2vec,一方面是因為深度學習是當前計算機科學領(lǐng)域的最新研究熱點,該軟件正是深度學習研究的重要工具,它一經(jīng)推出就得到了大批科研人員的認可,被廣泛用于詞嵌入、詞聚類、找同近義詞、詞性分析等諸多研究[17];另一方面是因為圖情領(lǐng)域?qū)W者也開始關(guān)注、學習和使用該軟件[18-20],Word2vec軟件彌補了傳統(tǒng)向量空間模型高維稀疏的缺陷,在詞特征提取、詞語義相似度計算等方面存在優(yōu)勢,為圖情領(lǐng)域的相關(guān)研究提供了新的研究方法。本文將采用內(nèi)容分析法對中英文學術(shù)論文中Word2vec的使用和引用情況進行標注、編碼和統(tǒng)計,以揭示該軟件的可見性和學術(shù)影響力。同時,對軟件引用和學術(shù)影響力進行研究分析,能為圖情領(lǐng)域的信息計量分析提供新的研究思路,還能促進軟件的共享和再利用。

        2 相關(guān)研究

        2.1 軟件引用及影響力評價研究

        軟件的開發(fā)者、用戶以及科研資助機構(gòu)都對軟件的使用和引用情況感興趣[21]。對軟件開發(fā)者來說,一方面可以通過了解軟件的使用情況來確定應(yīng)該對自己的軟件如何進行修改和擴展,另一方面可以通過用戶數(shù)量、類型和軟件對他人科學研究的貢獻來了解自己的科學影響力[14]。一些學者開始注意到軟件影響力評價缺失的問題。Smith等[22]介紹了一本開源軟件雜志JOSS,這本雜志主要刊登介紹開源軟件的相關(guān)文章,試圖以此來提高軟件質(zhì)量和開發(fā)者知名度。與此同時,研究人員提出軟件也應(yīng)像期刊和會議論文一樣,以具體指標來評價其影響力[23]。Thelwall[24]認為有必要用量化指標來幫助評價軟件的學術(shù)影響力,他們研究了下載頻次對軟件學術(shù)影響力的測度,結(jié)果表明,下載頻次并不能很好地測度軟件的學術(shù)影響力。趙蓉英等[25]則提出利用軟件的下載量、被引指標和復(fù)用指標來評價開源軟件的學術(shù)影響力。Howison 研究發(fā)現(xiàn),生物學領(lǐng)域軟件引用缺失嚴重,被引頻次難以有效評價軟件影響力[26]。Niemeyer等[23]分析了軟件引用可能面臨的問題與挑戰(zhàn),包括同行評審的確定、軟件的識別、軟件之間存在的相互關(guān)系等。Smith等[27]呼吁制定統(tǒng)一軟件引用標準,以推進軟件引用規(guī)范化。

        2.2 Word2vec的相關(guān)研究

        Word2vec軟件的出現(xiàn)為快速獲取自然語言語義特征提供了可能,促進了自然語言處理領(lǐng)域相關(guān)研究的發(fā)展,國內(nèi)外學者均基于此進行了大量相關(guān)研究。Birong等[28]用研究論文中的標題詞和關(guān)鍵詞作為種子詞匯,利用Word2vec從開放的語料庫中訓練識別出的類似詞語作為候補詞匯,提出了一種新的論文專業(yè)術(shù)語提取方法。Guan等[29]以亞馬遜網(wǎng)站上的在線書評為數(shù)據(jù)來源,利用Word2vec和K-means對評論文章進行聚類,對用戶進行特征分類。Liu等[30]為解決傳統(tǒng)分類方法在短文本分類中準確率低的問題,提出了一種基于維基百科和Word2vec的短文本特征擴展的新方法。Bhattacharjee等[31]使用Word2vec的向量空間模型構(gòu)建了一個在線餐館評論語料庫,據(jù)此進行用戶情感分析。Nguyen等[32]使用Word2vec神經(jīng)網(wǎng)絡(luò)學習框架,通過識別語法和語義上相似的術(shù)語,來改進非結(jié)構(gòu)化文本中的相關(guān)術(shù)語覆蓋范圍。

        國內(nèi)學者同樣使用Word2vec進行了相當多的研究。楊小平等[33]利用Word2vec對從搜狗新聞?wù)Z料中獲取的海量中文語料進行了訓練處理,研究了詞間距離對詞語相似度的影響,初步計算得到各詞的情感向量,從而生成了多維情感詞典。閉炳華[34]針對傳統(tǒng)本體構(gòu)建既費時又費力的問題,設(shè)計了一種基于Web的領(lǐng)域本體半自動構(gòu)建方法,利用Word2vec對分詞后的原始語料進行訓練,用得到的詞向量模型抽取種子領(lǐng)域概念的相關(guān)詞匯,從而提出了一種基于Word2vec的領(lǐng)域本體概念抽取算法。圖情領(lǐng)域也有眾多學者使用Word2vec軟件進行研究,劉小敏等[35]基于Word2vec對文本進行詞特征提取,降低詞向量維度,最終實現(xiàn)對微博短文本的分類。孫源[36]利用Word2vec對SCI地址字段數(shù)據(jù)進行清洗,最終發(fā)現(xiàn),Word2Vec詞向量模型能夠根據(jù)SCI地址字段的上下文信息,清洗出指定機構(gòu)名稱的形似、變體和縮寫機構(gòu)名,從而達到數(shù)據(jù)規(guī)范化的目的。此外,還有很多學者利用Word2vec模型進行需求挖掘和個性化推薦[37-41]。

        3 數(shù)據(jù)與方法

        本研究以中國知網(wǎng)、萬方、維普和Scopus數(shù)據(jù)庫中使用Word2vec的中英文論文為樣本,采用內(nèi)容分析法對軟件的使用和引用情況進行多維度分析。首先,分別在中國知網(wǎng)、萬方和維普中以“word2vec”、“word 2vec”、“word 2 vec”、“word2 vec”、“word2vector”和“w2v”為檢索詞進行精確檢索,文獻類型限定為期刊論文,檢索時間截止2018年12月底。其中,中國知網(wǎng)的檢索字段為全文字段,萬方和維普的檢索字段為主題字段(包括題名、關(guān)鍵詞和摘要)。對檢索結(jié)果進行合并去重,一共獲得859篇期刊論文。排除英文期刊論文、導(dǎo)讀、題錄等,最終獲得827篇中文期刊論文。同樣地,在Scopus數(shù)據(jù)庫檢索主題字段包含上述檢索詞的英文期刊論文和會議論文。本研究選取期刊和會議兩種文獻類型是因為Word2vec自發(fā)布以來被廣泛用于計算機科學領(lǐng)域,在該領(lǐng)域中,會議論文被認為具有與期刊論文同等甚至更為重要的影響力[42]。排除無法獲取全文、非英文和非相關(guān)的文獻后,最終得到999篇英文論文(其中,期刊論文178篇,會議論文821篇)。

        內(nèi)容分析法是一種對具有明確特性的傳播內(nèi)容進行的客觀、系統(tǒng)和定量描述的研究技術(shù)[43]。該方法通常旨在對研究對象的本質(zhì)性事實和發(fā)展趨勢進行清晰的梳理和了解,以此對其中所蘊含的深層次內(nèi)容進行進一步的揭示和挖掘,并對其發(fā)展趨勢加以預(yù)測和把握。首先依據(jù)已有研究[26]制定軟件提及和引用特征編碼表(見表1),然后由1位編碼員對收集到的中英文論文進行編碼標注,最后對編碼結(jié)果進行統(tǒng)計分析。需要指出的是,引用軟件是指論文在參考文獻部分對軟件來源進行描述。同時,本研究對提及和使用軟件進行了區(qū)分,提及軟件是指論文中出現(xiàn)了軟件,使用軟件是指論文借助軟件進行了相關(guān)研究。

        表1 軟件提及和引用特征編碼框架

        4 結(jié)果與分析

        4.1 總體數(shù)據(jù)及分析

        在827篇提及Word2vec的中文期刊論文中,共有738篇使用了該軟件,占比89.24%。178篇英文期刊論文中,161篇使用了該軟件,占比90.45%。821篇英文會議論文中,787篇使用了該軟件,占比95.86%。圖1展示了使用Word2vec的中文期刊論文、英文期刊論文以及英文會議論文的年代分布。

        圖1 論文量隨年代變化趨勢圖

        從圖1中可以看出,從2013年到2018年,使用Word2vec的中英文論文量逐年上升,且呈逐年增加的趨勢。早在Word2vec發(fā)布的2013年,就有中文期刊論文使用Word2vec進行研究,數(shù)量從最初的1篇增加到2017年的186篇,四年增長了一百多倍。2018年的中文期刊論文更是成倍增長,可以預(yù)見,今后會有越來越多的國內(nèi)學者使用Word2vec軟件進行科學研究。2015年英文期刊開始出現(xiàn)使用Word2vec的論文,2016年、2017年的論文量均是上一年的兩倍之多,2018年論文量也超過了2017年。相較于其他兩類論文,使用Word2vec的英文會議論文數(shù)量最多、增幅最大。因為許多會議在2018年下半年召開,這些會議的論文尚未被Scopus收錄,所以圖1中2018年的會議論文量少于2017年的會議論文量。

        此外還對上述論文的出版物種類進行了統(tǒng)計,結(jié)果如圖2所示。從中可以看出,使用Word2vec的中文期刊種類從2013年的1種增加到2016年的52種,三年增長了五十多倍,2016年后出版物種類增長速度更是逐年增加,2018年已經(jīng)增加到153種。英文期刊種類逐年穩(wěn)定增長,2015年的12篇論文分布在10種期刊上,2016年的26篇論文分布在20種期刊上,2017年的53篇論文分布在不同的46種期刊上,期刊較為分散。英文會議論文出版物種類到2016年已經(jīng)高達69種,高于其他兩類,2017年更是增長迅猛,達到了136種。總體來說,英文期刊種類的增長速度最慢。2015年之前,中文期刊的增長速度最快, 2016年,英文會議出版物的種類、增速均超過中文期刊出版物。

        圖2 出版物種類年代變化趨勢圖

        4.2 Word2vec的信息提及情況

        除正式引用外,論文中關(guān)于軟件版本、創(chuàng)建者、存儲地址等信息的描述也有助于提高軟件的可見性。軟件在文獻中的可見性影響軟件的重復(fù)利用以及科學家參與開發(fā)開源軟件的積極性[26]。從表2可以看出,在使用Word2vec的中文期刊論文中,超過40%的論文僅提及軟件名稱,比例遠高于英文會議論文和英文期刊論文。這說明,排除正式引用后,中文期刊論文中的Word2vec可見性低于英文會議和期刊論文。此外,不論是中文論文還是英文論文,期刊論文還是會議論文,提及最多的都是軟件開發(fā)者,其次是版本信息,最少的則是存儲地址信息。

        表2 軟件信息提及情況

        4.3 Word2vec的引用情況

        在論文中正式引用軟件可以提高軟件的可見性,有助于促進軟件的擴散與共享[21]。本文采用引用缺失率[15]來測度Word2vec的引用缺失情況。引用缺失率是指未引用軟件的文獻數(shù)在全部使用軟件的文獻數(shù)中的占比,計算公式為:軟件引用缺失率=(使用軟件的文獻數(shù)-引用軟件的文獻數(shù))/使用軟件的文獻數(shù)。表3列出了Word2vec的引用缺失情況。

        表3 Word2vec引用缺失率逐年變化情況

        由表3可知,Word2vec的引用缺失率最高的是中文期刊論文,其次是英文會議論文,最低的是英文期刊論文。使用Word2vec的中文期刊論文量逐年增加,但Word2vec的引用缺失率未有下降的趨勢,維持在0.5附近。英文會議論文中的Word2vec引用缺失率則呈現(xiàn)一定的下降趨勢,由最開始的0.37下降到0.27。英文期刊論文中Word2vec的引用缺失率雖有波動,但除去2017年略高于會議論文,其他每年的引用缺失率均低于其他兩類論文。

        為了探究軟件引用是否與軟件出現(xiàn)的位置有關(guān),我們統(tǒng)計了使用Word2vec的1686篇中英文論文中軟件出現(xiàn)的位置,計算不同位置的引用缺失率,結(jié)果如表4所示。

        表4 不同位置的Word2vec引用缺失率

        由表4可知,在中文期刊論文中,Word2vec出現(xiàn)在主題部分的論文引用缺失率(0.48)略低于正文部分(0.54)。在英文期刊論文中,Word2vec出現(xiàn)在主題部分的論文引用缺失率(0.19)稍高于正文部分(0.11)。在英文會議論文中,Word2vec出現(xiàn)在主題部分的論文引用缺失率(0.24)低于正文部分(0.27)。

        此外,為了進一步探究核心期刊論文是否更有可能正式引用Word2vec,將現(xiàn)有的期刊分為核心期刊和一般期刊。將《北大中文核心期刊目錄》和Web of Science收錄的期刊認定為核心期刊,其他期刊為一般期刊。表5列出了使用Word2vec的中英文核心期刊和一般期刊的論文量及引用缺失情況。

        表5 不同期刊類別的引用缺失率

        由表5可知,中英文核心期刊中的Word2vec的引用缺失率均低于一般期刊。其中,中文核心期刊的引用缺失率為0.49,一般期刊的引用缺失率為0.58,英文核心期刊的引用缺失率僅為0.15,遠低于一般期刊的0.28。為了探究核心期刊和一般期刊在Word2vec的引用情況上是否存在顯著差異,我們使用SPSS 20.0[44]對數(shù)據(jù)進行了卡方檢驗。結(jié)果顯示,中文期刊論文的卡方值=3.328,P值=0.068〉0.05,無顯著性差異;英文期刊論文的卡方值=5.917,P值=0.015〈0.05,存在顯著性差異。

        此外,對論文中Word2vec的引用內(nèi)容進行分類統(tǒng)計,結(jié)果如表6所示。從中可以看出,研究者傾向于引用Word2vec的相關(guān)出版物,引用比例高達80%,遠高于網(wǎng)站和用戶指南/手冊。其中,三類論文引用指南/手冊的比例均較低,英文論文比中文論文更愿意引用能直接獲得軟件的網(wǎng)站信息。

        表6 Word2vec的引用內(nèi)容分類

        5 討論與結(jié)論

        本文以開源軟件Word2vec為例,采用內(nèi)容分析法對其在中英文學術(shù)論文中的使用和引用情況進行深入分析,以此來揭示開源軟件在學術(shù)論文中的可見性和學術(shù)影響力。研究結(jié)果發(fā)現(xiàn),自2013年起,使用Word2vec的中英文論文量均逐年增長且增幅顯著,從最初的1篇增長到2018年的1 686篇,呈千倍增長,這從一個側(cè)面反映了很多科學研究需要借助于開源軟件。

        盡管有越來越多的論文使用Word2vec,但是Word2vec的引用情況并不理想。分別有52%的中文期刊、24%的英文會議論文、19%的英文期刊論文使用卻未正式引用Word2vec。中文期刊論文的Word2vec引用缺失率是英文論文的兩倍之多,這可能是因為國內(nèi)的研究人員和出版機構(gòu)尚未認識到正式引用軟件的重要意義,也可能是因為國內(nèi)目前尚無明確的軟件引用規(guī)范,而國外的一些研究論文撰寫格式(APA、IEEE等格式)在其最新版本中已明確給出軟件引用格式。與此同時,我們還發(fā)現(xiàn),較之軟件的存儲地址,研究者更傾向于引用軟件相關(guān)出版物,這也與Howison[26]之前的研究結(jié)果相符,可能是因為學術(shù)界具有引用出版物的傳統(tǒng)和習慣。此外,英文核心期刊和一般期刊在引用缺失率上存在統(tǒng)計學意義上的顯著差異。這或許是因為英文核心期刊比一般期刊有著更嚴格的學術(shù)規(guī)范。

        綜上所述,軟件在科學研究中的作用日益顯著,但是軟件引用缺失依然嚴重。國內(nèi)尚未將軟件納入科研獎勵體系以及軟件引用缺失的現(xiàn)狀會導(dǎo)致科學家不再參與開源軟件的開發(fā)、不再共享自己開發(fā)的科研軟件,這將造成科學軟件的重復(fù)開發(fā)和科研資源的浪費,不利于資源的優(yōu)化配置。鑒于目前國內(nèi)科研管理部門對軟件學術(shù)價值不夠重視、學者缺乏軟件引用意識、學術(shù)界缺少統(tǒng)一的軟件引用規(guī)范,有必要加深國內(nèi)管理者和研究人員對軟件學術(shù)貢獻的理解,培養(yǎng)國內(nèi)學者的軟件引用意識,參考國外的數(shù)據(jù)和軟件引用規(guī)范,制定出我國的軟件引用標準,來推進我國軟件引用規(guī)范化,促進軟件傳播和共享,進而提高科研效率。同時,建立統(tǒng)一規(guī)范的軟件引用格式,為后續(xù)圖情領(lǐng)域開展基于軟件引證行為的細粒度信息計量分析研究提供一個新的視角,也為科研評價和創(chuàng)新激勵提供一個新的維度。

        猜你喜歡
        期刊論文開源影響力
        醫(yī)學期刊論文中常見統(tǒng)計學錯誤
        五毛錢能買多少頭牛
        天才影響力
        NBA特刊(2018年14期)2018-08-13 08:51:40
        黃艷:最深遠的影響力
        大家說:開源、人工智能及創(chuàng)新
        開源中國開源世界高峰論壇圓桌會議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
        公共圖書館不應(yīng)認可的職稱期刊論文探析——基于重慶圖書館職稱期刊論文的實證調(diào)研
        人文社科期刊論文被引頻次和下載頻次相關(guān)性研究
        開源計算機輔助翻譯工具研究
        3.15消協(xié)三十年十大影響力事件
        av在线播放免费网站| 69av视频在线观看| 亚洲综合色婷婷久久| 夜色视频在线观看麻豆| 男女av一区二区三区| 国内精品视频在线播放不卡 | 欧美日韩视频在线第一区| 亚洲羞羞视频| 在线观看黄片在线播放视频| 国产三级黄色免费网站| 亚洲精品久久久av无码专区| 综合久久给合久久狠狠狠97色| 美女极度色诱视频国产免费| 极品夫妻一区二区三区| √天堂中文官网在线| 国模无码人体一区二区| 国产码欧美日韩高清综合一区| 久久午夜av一区二区| 亚洲日韩精品一区二区三区| 亚洲国产无线乱码在线观看| 国产在线观看网址不卡一区| 国产精品国产av一区二区三区 | 久久久国产一区二区三区四区小说| 女同性恋精品一区二区三区| 日产精品久久久久久久| 亚洲天堂无码AV一二三四区| 亚洲精品偷拍自综合网| 亚洲 卡通 欧美 制服 中文| 91麻豆精品激情在线观看最新| 人妻在线中文字幕视频| 少妇无套裸按摩呻吟无呜| 最新高清无码专区| 成在线人视频免费视频| 久草中文在线这里只有精品| 公和我做好爽添厨房中文字幕 | 精品国产中文久久久免费| 久久伊人精品一区二区三区| 亚洲网站地址一地址二| 美女被插到高潮嗷嗷叫| 日韩精品 在线 国产 丝袜| 真人与拘做受免费视频|