亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計算機科學中的“睡美人”文獻特征分析及識別方法研究

        2023-01-26 20:43:06臨清市新時代文明實踐服務中心郭艷霞
        內江科技 2022年6期
        關鍵詞:睡美人子類計算機科學

        ◇臨清市新時代文明實踐服務中心 郭艷霞

        雖然絕大多數(shù)的科學出版物都是在發(fā)表后的最初幾年里被引用的,但也有一些有趣的論文—被稱為“睡美人”,在發(fā)表后的幾年里被引用的次數(shù)并不多,但隨后卻突然開始被大量引用。在這項工作中,我們關注在計算機科學領域的“睡美人”。我們選出了5000多名計算機科學中的“睡美人”,并根據(jù)他們的子領域和他們的引文概況來描述他們。我們還提出了一種早期識別“睡美人”的方法,該方法試圖根據(jù)出版物是否可能是“睡美人”文獻對其進行分類。

        1 引言

        科學文獻是科技工作者交流的主要手段,科學引文的數(shù)量是衡量科學文獻的重要指標??茖W引文隨時間變化,呈現(xiàn)一定得特性。絕大多數(shù)論文在發(fā)表后的最初幾年被引用,然后呈指數(shù)衰減,但很少有特別受歡迎的論文能隨著時間穩(wěn)步積累被引用。人們還觀察到另一類有趣的論文—那些在發(fā)表后幾年沒有被大量引用,但突然開始被引用的論文,通常被稱為“睡美人”文獻[1]。

        對論文的“晚喚醒”或“晚識別”現(xiàn)象早有研究。然而,幾乎所有之前的研究都集中在基礎科學的論文上,但在計算機科學領域對“睡美人”文獻的研究非常稀少。

        在這項工作中,我們使用從微軟學術搜索抓取的大型論文數(shù)據(jù)集,我們識別和描述了計算機科學中超過5000個“睡美人”文獻。我們發(fā)現(xiàn)“睡美人”文獻中有各種子類,它們在各個方面的行為都不同。例如,雖然一些“睡美人”文獻在喚醒后被引用的次數(shù)繼續(xù)增加,但許多其他“睡美人”文獻在幾年后被引用,然后被引用次數(shù)再次下降。研究表明,“睡美人”文獻的許多特性取決于計算機科學領域的相關子領域。例如,大多數(shù)“睡美人”文獻來自的子字段“算法和理論”和“科學計算”。這些“睡美人”文獻中的許多在較長的時間后蘇醒(與其他子領域的“睡美人”文獻相比);然而,一旦他們醒來,他們經(jīng)常被計算機科學的其他子領域引用。相比之下,來自子領域“自然語言和語音”和“硬件和體系結構學”通常只引用自他們自己的子領域。

        2 相關工作

        理解科學論文的引文增長動態(tài)一直是文獻計量學中一個有趣的問題[2]。在研究計算機科學論文的有效生命周期的引文動力學時,一個廣義的觀察結果[3]揭示,在發(fā)表論文之后,在最初的兩到三年內,引文收集的頻率會有一個初始增長(增長階段),隨后是一個恒定的峰值,也就是說,進入引用的頻率在接下來的一到兩年里變得停滯(飽和階段),然后,在文章的剩余生命周期中出現(xiàn)最終的下降(衰退階段),然后逐漸地,在某個點上觀察不到進一步的活動(廢棄階段)。然而,我們本論文的動機源于Ruiz-Castillo[4]提出的一個基本問題與科學計量學相關的內容如下:“不同科學的引文分布是非常相似還是相當不同?”

        Chakraborty[3]在早期的工作中引入了計算機科學領域中科學文章的各種引用分布圖的想法。他們提出了一種新的引文增長模型來模擬這些不同的引文分布。在接下來的工作中[14],他們展示了如何使用這些概要信息來預測一篇文章在其發(fā)表時的未來被引數(shù)。其提出了一個兩階段的分層學習框架,在第一階段使用基于規(guī)則的方法將被試論文的引文輪廓映射到一個類別;然后在第二階段,對只屬于映射類別的論文進行訓練,預測該論文未來的被引次數(shù)。他們還通過分析論文的引文分布和上下文屬性(如關鍵詞、主題等)來量化論文(相對于領域)的跨學科性。

        關于論文“晚醒”或“晚認”現(xiàn)象的研究很少。Garfield[5]是第一個提供此類論文例子的研究者。后來,Glanzel[6]估計了這種延遲識別,并揭示了這種現(xiàn)象的有趣特征。Raan首先創(chuàng)造了“睡美人”這個詞,指的是識別延遲的論文。李江等人[7]分析了分析了諾貝爾獎得主論文的引文曲線,發(fā)現(xiàn)了識別延遲的文章。最近,杜建等人[8]引入了一種無參數(shù)方法來識別科學中的“睡美人”文獻。

        Li and Shi[9]提出了一套基于引證譜增長速度的新標準來從諾貝爾獎得主的文章中檢測天才文章。然而,他們提出的標準也有一些特別的選擇。例如,該標準不適用于很少被引用或從未被引用的文章。一篇文章至少被引用9次,在發(fā)表10年和50年后至少被引用90次,分別滿足該準則。

        Li等人[10]研究了四個特殊的案例,“睡美人”似乎被紡線傷到,進入睡眠,然后被王子喚醒。他們還選擇了一些特別的標準來鑒別“睡美人”—某段時間(至少5年)平均被引用次數(shù)少于2次,而在接下來的4年里平均被引用次數(shù)超過20次。在另一項研究中,Li和Ye[11]提出了三個標準—基于平均水平的標準、基于四分位數(shù)的標準和無參數(shù)的標準,以此來區(qū)分“睡美人”。van Raan[12]進一步研究了“睡美人”的兩個重要性質:①“睡美人”的時間依賴分布、作者特征、期刊和領域;②“睡美人”的認知環(huán)境。他研究的是物理、化學和工程科學論文,并觀察到一半的“睡美人”論文是面向應用的。從上述討論中可以明顯看出,不同的研究使用了不同的標準來識別“睡美人”文獻。屈文建等人[13]對高被引文章引文曲線進行了分析。

        3 “睡美人”的數(shù)據(jù)集和識別

        本節(jié)描述計算機科學論文的數(shù)據(jù)集,以及我們如何從該數(shù)據(jù)集識別“睡美人”文獻。

        3.1 計算機科學論文數(shù)據(jù)集

        我們使用了一個從微軟學術機構抓取的計算機科學論文的大數(shù)據(jù)集搜索(MAS)。具體來說,我們收集了截至2012年MAS檢索的所有計算機科學領域發(fā)表的論文。該數(shù)據(jù)集包含200多萬篇論文的數(shù)據(jù)。對于每一篇論文,數(shù)據(jù)集包含論文的詳細信息(例如,標題、作者、發(fā)表地點和年份、關鍵詞),以及本文引用的其他論文的名稱。此外,每篇論文都映射到計算機科學的一個或多個子領域。計算機科學共有24個子領域,如“算法與理論”、“科學計算”、“人工智能”、“網(wǎng)絡與通信”等,每篇論文都會提到一個或多個子領域。

        在這項研究中,我們關注的是1950年至2011年期間的引文,對此我們有近乎完整的數(shù)據(jù)。此外,我們決定把重點放在受歡迎的論文上,只考慮了那些至少被引用20次的178383篇論文(到2011年為止)。

        3.2 標準化引文分布圖的計算

        3.3 識別“睡美人”文獻

        接下來,我們從論文的規(guī)范化引用分布圖中識別“睡美人”文獻。Raan于2004年提出了識別“睡美人”文獻的三個維度:①睡眠期間的持續(xù)時間;②睡眠深度,即睡眠期間的平均被引次數(shù);③喚醒強度,即睡眠后4年的累計被引次數(shù)。在上述三個維度中,我們只考慮前兩個維度來標識“睡美人”文獻。我們不考慮第三個維度,因為“睡美人”文獻在覺醒后的年份中可能有非常不同的引文分布圖。

        具體來說,如果一篇論文在其發(fā)表后的前10年,其規(guī)范化引文分布圖中的所有數(shù)據(jù)點都小于0.20,我們就認為該論文是一篇“睡美人”文獻。換句話說,我們關注的是睡眠期至少為10年的論文,睡眠期的平均年被引次數(shù)最多為其峰值的20%。請注意,我們從過去的一系列工作中調整了這些標準。通過這個過程,我們將5086篇論文確定為“睡美人”文獻(占我們數(shù)據(jù)集中所有論文的2.85%,這些論文至少被引用20次)。

        值得一提的是,對于大多數(shù)情況,我們實際上考慮了一個靈活的標準。例如,前10年的標準化引用計數(shù)被認為是。發(fā)布后的時間窗口為年。標準中的靈活性最終產(chǎn)生了與上面所述差不多的一組“睡美人”文獻。

        有人可能會反對我們的標準化程序,如果一篇論文從發(fā)表之日起就得到越來越多的關注,隨后又被多次引用,那么在最初幾年的比例就會變得相對較小,通過我們的方法,它可能會被誤認為是“睡美人”文獻(這類論文通常被稱為“常青”論文,而不是“睡美人”)。為了交叉驗證已確定的5086篇“睡美人”文獻中是否存在此類論文,我們進一步測量了每個已確定的“睡美人”文獻在其休眠時間(發(fā)表后的前10年)的原始引用計數(shù)。我們沒有發(fā)現(xiàn)任何“睡美人”文獻在睡眠時間被引用超過50次。因此,我們得出結論,我們的歸一化方法沒有錯誤地將普通文獻甚至是常青的文章檢測為“睡美人”文獻。

        4 “睡美人”文獻特征描述

        在本部分中,我們將根據(jù)前面所述的方法來描述“睡美人”文獻的特征。

        4.1 “睡美人”文獻與計算機科學子領域關系分析

        如前所述,數(shù)據(jù)集中的每篇論文都映射到的一個或多個子字段計算機科學。我們統(tǒng)計了識別的5086個“睡美人”文獻在不同子字段中的分布情況。在“睡美人”文獻中,“算法與理論”和“科學計算”的子領域占50%以上,而“人工智能”和“科學計算”的子領域占50%以上,“自然語言和言語”占了另外22%。我們還注意到,對于“睡美人”文獻的三個子類中的每個子類,跨不同子字段的分布幾乎保持相同。

        我們統(tǒng)計了某一子領域(包括在我們的數(shù)據(jù)集中)的所有論文中有多少部分是“睡美人”文獻。同樣,來自“算法與理論”和“科學計算”子領域有更高比例的論文成為“睡美人”文獻,這可能是因為這些論文貢獻的算法/方法后來在計算機科學的不同子領域中得到了應用。有趣的是,盡管“信息檢索”這一子領域的“睡美人”文獻比許多其他子領域少,但這一子領域的論文成為“睡美人”文獻的比例高于許多其他子領域。

        4.2 基于喚醒后引文分布圖的“睡美人”文獻類型分析

        我們首先檢查不同“睡美人”文獻的引用分布圖在它們被喚醒后看起來是否相似或不同。為此,我們應用以下啟發(fā)式方法檢測“睡美人”的引文分布圖中的峰值:①高峰應該是一個局部最大值,兩側的高度比最多(或等于)小峰高;②峰值的高度應該是至少70%的全球最大峰高;③連續(xù)兩個峰應該相隔2年以上,否則,他們被視為一個峰值。有趣的是,我們根據(jù)喚醒后引文分布圖的峰值數(shù)量觀察到“睡美人”文獻的三個不同子類。

        (1)單峰特征。這些“睡美人”文獻在蘇醒后逐漸積累被引次數(shù),導致被引輪廓出現(xiàn)峰值,隨后被引次數(shù)下降。這個子類占所有已識別“睡美人”文獻的43.8%。

        (2)多峰特征。這些“睡美人”文獻的引文輪廓有多個峰,峰間間隔為幾年(占全部“睡美人”文獻的37.9%)。

        (3)這些“睡美人”文獻的被引分布隨時間持續(xù)上升,至少持續(xù)到2011年(直到我們有完整的被引數(shù)據(jù)為止)。這個子類包含18.3%的“睡美人”文獻。

        4.3 “睡美人”文獻最終被引用的次數(shù)與其他類型的論文比較分析

        我們比較了“睡美人”文獻的總被引次數(shù)(從至少被引20次的論文中選出)和在我們的數(shù)據(jù)庫里的178383篇論文中,至少有20引用的文章。一般來說,“睡美人”文獻最終比其他類型的論文獲得更多的引用。例如,25%的“睡美人”文獻被引用100次或100次以上,而在所有論文中這一比例不到11%。因此,“睡美人”文獻雖然得到認可的時間較晚,但比其他論文更受歡迎。

        我們還比較了三類“睡美人”文獻的總被引頻次。在“睡美人”文獻中,單調遞增的子類通常被引次數(shù)最多,其次是多峰,然后是單峰。

        5 結束語

        我們對大量的計算機科學出版物數(shù)據(jù)集進行了實證分析,以理解和預測“睡美人”文獻。我們發(fā)現(xiàn)了跨越計算機科學的各個子領域的5000多個“睡美人”文獻,并根據(jù)他們醒來后的被引分布圖,以及他們被引的不同子領域的數(shù)量,描述了這些“睡美人”文獻的特征。后期,我們將繼續(xù)探究識別“睡美人”文獻的新方法,更大限度地挖掘“睡美人”文獻的價值。

        猜你喜歡
        睡美人子類計算機科學
        《睡美人》
        工會博覽(2023年3期)2023-04-06 15:52:34
        水中睡美人
        卷入Hohlov算子的某解析雙單葉函數(shù)子類的系數(shù)估計
        探討計算機科學與技術跨越式發(fā)展
        睡美人
        關于對稱共軛點的倒星象函數(shù)某些子類的系數(shù)估計
        淺談計算機科學與技術的現(xiàn)代化運用
        電子制作(2017年2期)2017-05-17 03:55:01
        重慶第二師范學院計算機科學與技術專業(yè)簡介
        淺談在計算機科學中的創(chuàng)新精神
        河南科技(2014年23期)2014-02-27 14:19:15
        《睡美人怕什么》等
        国产精品亚洲精品日产久久久| 久久av少妇亚洲精品| 日本视频在线播放一区二区| 国产精品久久久久久人妻无| 国产真实夫妇交换视频| 亚洲AV无码一区二区二三区我| 精品一区二区亚洲一二三区| 国产又色又爽的视频在线观看91| 一个少妇的淫片免费看| 国产婷婷色综合av蜜臀av| 国产成人无码免费网站| 亚洲国产成人精品无码区在线观看 | 亚洲av无码无限在线观看| 免费无码又爽又刺激网站| AⅤ无码精品视频| 免费人妻精品一区二区三区| 久久精品国产清自在天天线| 永久免费无码av在线网站 | 97精品国产高清自在线看超| 亚洲av少妇一区二区在线观看| 极品av一区二区三区| 欧美私人情侣网站| 亚洲精品无码mv在线观看| av无码一区二区三| 日本人妻97中文字幕| 亚洲中文字幕无码中文字| 看黄网站在线| 人妻系列无码专区久久五月天| 国产麻豆一区二区三区在线播放 | 日本高清无卡一区二区三区| 国产精品视频永久免费播放| 久久视频在线| 国产污污视频| 视频一区视频二区亚洲| 香港三级午夜理论三级| 欧美大香线蕉线伊人久久| 开心五月婷婷综合网站| 国产精品会所一区二区三区| 国产精品久久久久久久免费看| 国产在视频线精品视频二代| 日本一区二区国产精品|