亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科研論文基金項(xiàng)目“一文多注”和不實(shí)標(biāo)注研究

        2020-04-06 03:25:19葉文豪洪磊唐夢(mèng)嘉張逸勤
        圖書(shū)與情報(bào) 2020年6期

        葉文豪 洪磊 唐夢(mèng)嘉 張逸勤

        摘? ?要:學(xué)術(shù)期刊數(shù)據(jù)庫(kù)的建設(shè)為科研論文標(biāo)注基金的深入研究提供了條件。文章以國(guó)家社科基金項(xiàng)目為例,從CNKI數(shù)據(jù)庫(kù)獲取了基金項(xiàng)目的論文成果,對(duì)這些論文的基金標(biāo)注情況進(jìn)行了統(tǒng)計(jì)分析。采用Word2vec模型計(jì)算了論文與標(biāo)注基金研究?jī)?nèi)容的相關(guān)性,并結(jié)合人工,識(shí)別出基金不實(shí)標(biāo)注的現(xiàn)象。結(jié)果表明,論文一文多注的情況較為常見(jiàn);在基金不實(shí)標(biāo)注的數(shù)據(jù)中,重大項(xiàng)目和重點(diǎn)項(xiàng)目作為高學(xué)術(shù)影響力的項(xiàng)目被不實(shí)標(biāo)注的比例較高。

        關(guān)鍵詞:科研論文;國(guó)家社科基金;一文多注;基金不實(shí)標(biāo)注

        Abstract The construction of the academic journal database provides possibility for in-depth research on the labeling of fund projects in scientific papers. In this research, the National Social Science Fund projects and the papers which labeled these fund projects were obtained from the CNKI database, and a statistical analysis was carried out on the fund labeling of these papers. Word2vec model was used to calculate the similarity of the research content between the paper and its labeled funds. Two human annotate teams were organized to make further identification of the false labeling of funds. The results show that it is common for papers to label multiple funds. Among the false labeling examples, the proportion of major projects and key projects are considerably higher.

        Key words scientific paper; National Social Science Fund Projects; multiple labeling; false labeling

        1? ?引言

        自我國(guó)科學(xué)基金制度建立以來(lái),國(guó)家不斷完善資助體系,逐年提高資助經(jīng)費(fèi),大力資助高等院校和科研機(jī)構(gòu)科研工作者開(kāi)展研究。目前已形成包括國(guó)家自然科學(xué)基金、國(guó)家哲學(xué)社科基金及其他省部級(jí)基金資助的基金資助體系,對(duì)學(xué)術(shù)理論創(chuàng)新起著支撐性作用,對(duì)推動(dòng)經(jīng)濟(jì)、社會(huì)發(fā)展的實(shí)踐應(yīng)用也具有指導(dǎo)意義。基金資助課題通常代表了某學(xué)科領(lǐng)域內(nèi)的研究熱點(diǎn)或研究前沿,基金項(xiàng)目立項(xiàng)需要經(jīng)過(guò)較為嚴(yán)格的程序,要求產(chǎn)出較高水準(zhǔn)的論著。因此,各類基金成果論文憑借自身較高的學(xué)術(shù)價(jià)值和較大的影響力贏得學(xué)術(shù)期刊的青睞。2008年《中文核心期刊要目總覽》將“基金論文比”引入期刊評(píng)價(jià)中。然而一旦被作為評(píng)價(jià)指標(biāo),就會(huì)存在被人為操縱的情況。許多期刊紛紛為基金論文開(kāi)辟綠色通道,以吸引基金論文投稿。

        “基金論文比”這項(xiàng)指標(biāo)是考察期刊所刊載論文得到基金項(xiàng)目資助的比例,許多期刊評(píng)價(jià)體系將其作為考察期刊學(xué)術(shù)影響的重要指標(biāo)之一。另一方面,各基金項(xiàng)目管理機(jī)構(gòu)要求項(xiàng)目成果必須標(biāo)注基金資助信息。所以,學(xué)術(shù)期刊重視基金資助論文,有的期刊甚至歧視非基金資助論文。同樣,基金項(xiàng)目承擔(dān)者為了完成項(xiàng)目,只要完成了論文,不論是否與項(xiàng)目主題關(guān)聯(lián),均標(biāo)注上自己承擔(dān)的項(xiàng)目,有的甚至把同事間的非相關(guān)基金項(xiàng)目都標(biāo)注上,使得論文基金標(biāo)注的真實(shí)性難以考證,由此帶來(lái)了論文基金項(xiàng)目不實(shí)標(biāo)注的不正之風(fēng)。一些學(xué)者為提高論文錄用幾率,在其論文成果中不實(shí)標(biāo)注基金項(xiàng)目。韓磊和邱源[1]在研究中發(fā)現(xiàn)除了論文作者主動(dòng)的基金不實(shí)標(biāo)注行為,還存在期刊為了自身評(píng)比的需要,暗示作者為論文用其他不相關(guān)基金項(xiàng)目掛名的行為?;痦?xiàng)目不實(shí)標(biāo)注嚴(yán)重影響了發(fā)表論文的真實(shí)性與公平性,極度不利于學(xué)術(shù)的發(fā)展。

        論文是基金項(xiàng)目的主要成果形式,因此論文產(chǎn)出情況是量化評(píng)價(jià)基金項(xiàng)目實(shí)施情況的主要指標(biāo)之一。科學(xué)項(xiàng)目成果中存在填報(bào)不實(shí)成果的做法(如用其他論文或他人論文充數(shù)、隨意拔高研究成果水平或成果多頭交賬的情況)。成果多頭交賬可能導(dǎo)致科學(xué)基金重復(fù)資助問(wèn)題,不利于科學(xué)基金發(fā)展規(guī)劃總體布局和目標(biāo)實(shí)現(xiàn)。

        針對(duì)存在問(wèn)題,本文以國(guó)家社科基金項(xiàng)目為例,結(jié)合計(jì)算基金標(biāo)題與資助論文題錄信息的文本相似度與人工判別方法,判斷論文與其標(biāo)注的基金在研究?jī)?nèi)容上是否大致相同。識(shí)別科研論文基金標(biāo)注過(guò)程中出現(xiàn)的問(wèn)題,鑒別學(xué)術(shù)不端行為,旨在讓我國(guó)科研環(huán)境更加公平公正;使我國(guó)科學(xué)基金的投向更趨合理,取得更好的實(shí)際使用效益,為我國(guó)未來(lái)社會(huì)和經(jīng)濟(jì)發(fā)展提供動(dòng)力。

        2? ?相關(guān)文獻(xiàn)

        在國(guó)家對(duì)科研投入不斷增長(zhǎng)的背景下,設(shè)立不同層次和類型的科學(xué)研究基金已成為國(guó)家推動(dòng)科技事業(yè)發(fā)展的重要方式??萍颊撐氖强蒲谢痦?xiàng)目重要的研究成果產(chǎn)出,而論文科學(xué)基金的標(biāo)注可以反映科技投入、分配與產(chǎn)出關(guān)系等重要信息[2]?;鹫撐拇碇芯款I(lǐng)域發(fā)展的動(dòng)向,同時(shí)也反映學(xué)科的科技基金資助情況。因此,科學(xué)基金標(biāo)注在一定程度上可以體現(xiàn)論文的學(xué)術(shù)水平。針對(duì)以科學(xué)基金評(píng)價(jià)學(xué)者、以科學(xué)基金表現(xiàn)論文水平的現(xiàn)象,眾多學(xué)者從標(biāo)注不端行為產(chǎn)生的原因和解決方法兩方面對(duì)科學(xué)基金規(guī)范化標(biāo)注進(jìn)行了詳細(xì)研究。

        2.1? ? 科學(xué)基金項(xiàng)目標(biāo)注問(wèn)題產(chǎn)生的原因

        針對(duì)科學(xué)基金項(xiàng)目標(biāo)注問(wèn)題產(chǎn)生的原因,學(xué)者從編輯部、論文作者和科學(xué)基金三個(gè)層面進(jìn)行探索。在編輯部層面,期刊質(zhì)量評(píng)價(jià)體系中強(qiáng)調(diào)發(fā)表基金項(xiàng)目尤其是國(guó)家級(jí)基金項(xiàng)目論文,“基金論文比”這一重要指標(biāo)引導(dǎo)了編輯在初審時(shí)對(duì)基金資助項(xiàng)目稿件的盲目追求[3];同時(shí)編輯部對(duì)基金項(xiàng)目信息的審核不嚴(yán)也導(dǎo)致虛假標(biāo)注的現(xiàn)象層出不窮,如編造、掛靠、牽強(qiáng)等情況[4]。在論文作者層面,科技論文作者數(shù)量多、所屬科研單位復(fù)雜等署名與基金存在的問(wèn)題無(wú)形中使需要標(biāo)注的基金數(shù)目增多,將科學(xué)基金項(xiàng)目標(biāo)注復(fù)雜化,容易出現(xiàn)署名學(xué)術(shù)不端、問(wèn)題推諉、重復(fù)資助等情況[5];部分作者自律意識(shí)淡薄,還存在編造虛假基金項(xiàng)目、掛名發(fā)表等不實(shí)標(biāo)注的行為來(lái)提高科研論文的分量、增加錄取的可能性[6]。在基金層面,由于基金資助存在馬太效應(yīng),科研項(xiàng)目的高度集中帶來(lái)了科研壟斷的隱患,造成了論文中科研基金扎堆的現(xiàn)象[7]。同一項(xiàng)目接受不同科研基金的重復(fù)贊助也導(dǎo)致科技資源分配不公、利用效率低下,嚴(yán)重影響了科研人員工作積極性[8]。

        2.2? ? 解決科學(xué)基金標(biāo)注問(wèn)題的方法

        在上述研究的基礎(chǔ)上,學(xué)者從數(shù)據(jù)庫(kù)的完善、標(biāo)注規(guī)范思想的建立和人工智能方法三個(gè)層面來(lái)探索解決科學(xué)基金標(biāo)注問(wèn)題的方法。在數(shù)據(jù)庫(kù)層面,眾多數(shù)據(jù)庫(kù)的構(gòu)建和完善促進(jìn)了科技論文的數(shù)字化,增加了論文發(fā)表的透明度,使作者對(duì)科學(xué)基金標(biāo)注更加謹(jǐn)慎。近年來(lái),Web of Science哲社核心數(shù)據(jù)庫(kù)[9]、超星數(shù)據(jù)[10]、CNKI數(shù)據(jù)庫(kù)[11]、CSSCI數(shù)據(jù)庫(kù)[12]的不斷更新和完善為學(xué)者對(duì)科技論文相關(guān)信息進(jìn)行深度挖掘、歸納和分析提供便利,使得學(xué)者對(duì)科學(xué)基金標(biāo)注問(wèn)題的深入研究有了新的思路。苗亞靜[13]提出通過(guò)加強(qiáng)各類基金資助機(jī)構(gòu)之間的信息共享來(lái)強(qiáng)化對(duì)科技論文和科學(xué)基金標(biāo)注的審核。在標(biāo)注規(guī)范思想層面,陳沙沙和劉春平[14]通過(guò)規(guī)范化科學(xué)基金項(xiàng)目著錄標(biāo)準(zhǔn),提高了標(biāo)注的科學(xué)性。白雪娜等[15]通過(guò)人工查詢核實(shí)了209個(gè)國(guó)家基金項(xiàng)目的178篇論文,發(fā)現(xiàn)同一項(xiàng)目在多篇論文中隨意掛靠的現(xiàn)象較為普遍,提出了編輯人員應(yīng)嚴(yán)格審查項(xiàng)目、提高對(duì)基金項(xiàng)目編號(hào)的甄別能力等要求。同時(shí)在人工智能方法層面,隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,蘇新寧和王東波[16]提出通過(guò)數(shù)據(jù)驅(qū)動(dòng)探究學(xué)術(shù)研究的規(guī)律,運(yùn)用人工智能方法對(duì)科技論文進(jìn)行信息抽取、深入而精確地挖掘?qū)W術(shù)文獻(xiàn)的多維度信息。葉文豪等[17]通過(guò)計(jì)算余弦相似度發(fā)現(xiàn)存在科學(xué)基金與論文主題不符的現(xiàn)象,基于孿生網(wǎng)絡(luò)模型構(gòu)建了科學(xué)基金與論文相關(guān)性判別模型來(lái)抑制基金不實(shí)標(biāo)注行為。

        3? ?數(shù)據(jù)來(lái)源與分析

        3.1? ? 數(shù)據(jù)源簡(jiǎn)介

        由于基金在文章中沒(méi)有統(tǒng)一的著錄標(biāo)準(zhǔn),基金字段存在多種不同格式,大多數(shù)沒(méi)有標(biāo)注出“基金類型‘基金名稱[基金號(hào)]”的完整信息。在數(shù)據(jù)抓取過(guò)程中為保證檢索結(jié)果可靠性,本文以基金批準(zhǔn)號(hào)作為唯一檢索條件進(jìn)行基金成果論文檢索。首先,通過(guò)編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)抓取了“國(guó)家社科基金項(xiàng)目數(shù)據(jù)庫(kù)”中自2014年開(kāi)始,截至到2018年的23個(gè)學(xué)科的社科基金重大項(xiàng)目、重點(diǎn)項(xiàng)目、一般項(xiàng)目和青年項(xiàng)目,共計(jì)20325項(xiàng)?;痦?xiàng)目信息主要包括項(xiàng)目批準(zhǔn)號(hào)、項(xiàng)目負(fù)責(zé)人、項(xiàng)目類別、學(xué)科分類、項(xiàng)目名稱、立項(xiàng)與結(jié)項(xiàng)時(shí)間等。利用獲取到的基金項(xiàng)目批準(zhǔn)號(hào)在《中國(guó)學(xué)術(shù)期刊(網(wǎng)絡(luò)版)》(中國(guó)學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù))中,通過(guò)“支持基金”字段,選擇精確匹配檢索模式進(jìn)行論文信息檢索,獲取由社科基金項(xiàng)目資助的論文的題錄信息。時(shí)間跨度為 2014年至 2019 年 7月。對(duì)檢索結(jié)果中被多個(gè)基金重復(fù)資助的論文去重后得到文獻(xiàn)80762篇,對(duì)應(yīng)的資助基金項(xiàng)目共14894項(xiàng)。本文統(tǒng)計(jì)了2014-2018年23個(gè)學(xué)科的國(guó)家社科基金項(xiàng)目立項(xiàng)數(shù)和已發(fā)表論文成果的項(xiàng)目數(shù)量(見(jiàn)圖1),匯總了各個(gè)學(xué)科國(guó)家社科基金資助的論文成果數(shù)量(見(jiàn)表1)。

        3.2? ? 論文標(biāo)注基金項(xiàng)目現(xiàn)狀分析

        中國(guó)知網(wǎng)的學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)中提供了論文的基金信息,為研究論文的基金不實(shí)標(biāo)注情況提供了條件。首先歸納不同類型基金項(xiàng)目批準(zhǔn)號(hào)的編碼規(guī)范。如以國(guó)家社科基金為例:國(guó)家社科基金項(xiàng)目批準(zhǔn)號(hào)的規(guī)范為:“兩位數(shù)字+一位項(xiàng)目類型代碼+兩位學(xué)科代碼+三位數(shù)字序號(hào)”。前兩位數(shù)字表示項(xiàng)目立項(xiàng)年份,項(xiàng)目類型代碼為[ A, B, C, X, F, W, K ],分別代表重點(diǎn)項(xiàng)目、一般項(xiàng)目、青年項(xiàng)目、西部項(xiàng)目、后期資助項(xiàng)目、中華學(xué)術(shù)外譯項(xiàng)目和成果文庫(kù)。此外重大項(xiàng)目采用“ZD”代碼表示(**ZDA***),存在部分沒(méi)標(biāo)明學(xué)科的重點(diǎn)項(xiàng)目采用“ZD”代碼替代學(xué)科類別代碼(**AZD***)。

        在對(duì)數(shù)據(jù)的觀察過(guò)程中發(fā)現(xiàn),江蘇省社科基金項(xiàng)目批準(zhǔn)號(hào)采用與國(guó)家社科基金項(xiàng)目批準(zhǔn)號(hào)一致的學(xué)科代碼,項(xiàng)目批準(zhǔn)號(hào)也采用“兩位數(shù)字+三位字母+三位數(shù)字”的編碼規(guī)范,用三位字母中的前兩位表示學(xué)科代碼以區(qū)分國(guó)家社科基金項(xiàng)目批準(zhǔn)號(hào)。并且部分地方社科基金項(xiàng)目批準(zhǔn)號(hào)與國(guó)家社科基金項(xiàng)目批準(zhǔn)號(hào)存在沖突的情況,包括湖南省社科基金項(xiàng)目,廣西哲學(xué)社會(huì)科學(xué)規(guī)劃項(xiàng)目,山東省社科基金項(xiàng)目,新疆維吾爾自治區(qū)社科項(xiàng)目,遼寧省社科規(guī)劃基金項(xiàng)目,西藏自治區(qū)哲學(xué)社會(huì)科學(xué),河南省哲學(xué)社會(huì)科學(xué)規(guī)劃項(xiàng)目等。由于目前各大期刊數(shù)據(jù)庫(kù)建設(shè)日益健全,項(xiàng)目批準(zhǔn)號(hào)沖突的情況會(huì)導(dǎo)致科研人員在檢索論文或進(jìn)行學(xué)術(shù)評(píng)價(jià)時(shí)發(fā)生誤檢,影響了檢索效果。

        然后采用正則表達(dá)式從獲取的成果論文的基金字段中抽取出基金項(xiàng)目批準(zhǔn)號(hào),基金項(xiàng)目批準(zhǔn)號(hào)抽取過(guò)程如下:

        步驟1:去除中文及標(biāo)點(diǎn),僅保留數(shù)字、字母與部分符號(hào);

        步驟2:去除連續(xù)字母和5位以下連續(xù)數(shù)字,得到所有類型的項(xiàng)目批準(zhǔn)號(hào),并統(tǒng)計(jì)數(shù)量;

        步驟3:獲取“兩位數(shù)字+三位字母+三位數(shù)字”格式的項(xiàng)目批準(zhǔn)號(hào);

        步驟4:根據(jù)項(xiàng)目類型代碼和學(xué)科代碼刪除江蘇省社科基金,并統(tǒng)計(jì)剩余項(xiàng)目批準(zhǔn)號(hào)數(shù)量;

        步驟5:統(tǒng)計(jì)基金詳情中“國(guó)家社*|國(guó)家哲學(xué)|全國(guó)哲學(xué)”等Patten的出現(xiàn)次數(shù),與步驟4統(tǒng)計(jì)的項(xiàng)目批準(zhǔn)號(hào)數(shù)量進(jìn)行校對(duì);

        步驟6:步驟5中數(shù)量不一致的條目,通過(guò)人工校對(duì)的方式篩選出國(guó)家社科基金項(xiàng)目批準(zhǔn)號(hào)。

        對(duì)論文標(biāo)注基金項(xiàng)目的數(shù)量進(jìn)行統(tǒng)計(jì)(見(jiàn)表2),可以看到經(jīng)濟(jì)與管理科學(xué)的論文成果傾向于標(biāo)注多個(gè)基金,管理學(xué)標(biāo)注一個(gè)基金的論文占該學(xué)科全部論文成果的比重為38%,應(yīng)用經(jīng)濟(jì)與統(tǒng)計(jì)學(xué)占比均為39%,理論經(jīng)濟(jì)占比42%。其中應(yīng)用經(jīng)濟(jì)與管理學(xué)標(biāo)注6個(gè)以上基金項(xiàng)目的論文數(shù)量也達(dá)到200篇以上。

        國(guó)家社科基金的“一文多注”現(xiàn)象所占比例相較所有基金類型有大幅度降低,因?yàn)閲?guó)家社科基金項(xiàng)目代表著各學(xué)科最新興的研究方向,基金項(xiàng)目的立項(xiàng)需要經(jīng)過(guò)嚴(yán)格的專家評(píng)審,即使在同一學(xué)科所申請(qǐng)的項(xiàng)目,其兩兩之間的研究主題差別也較大,因此部分學(xué)術(shù)期刊在投稿要求中明確表示不允許同時(shí)標(biāo)注兩個(gè)及以上國(guó)家社科基金項(xiàng)目號(hào)。在統(tǒng)計(jì)的標(biāo)準(zhǔn)國(guó)家社科基金論文中仍有6129篇論文(去除學(xué)科之間重復(fù)項(xiàng))標(biāo)注了兩個(gè)以上國(guó)家社科基金,標(biāo)注基金項(xiàng)目數(shù)量最多達(dá)到5項(xiàng)。針對(duì)這些“一文多注”的論文,筆者統(tǒng)計(jì)了所標(biāo)注國(guó)家社科基金之間立項(xiàng)時(shí)間的最大年份間隔(見(jiàn)圖2)。其中標(biāo)注的基金間隔一年的最多,有2130篇;其次為間隔兩年,有1374篇;標(biāo)注同一年立項(xiàng)的國(guó)家社科基金項(xiàng)目的論文數(shù)量排第三,為1113篇。標(biāo)注基金批準(zhǔn)號(hào)“98ASH001”的4篇論文是年份間隔最大的論文,通過(guò)查詢基金字段的詳情得出,其原因是該項(xiàng)目為國(guó)家社科基金重大滾動(dòng)項(xiàng)目。

        筆者采用Vosviewer軟件將國(guó)家社科基金項(xiàng)目共同資助情況以關(guān)系圖的形式呈現(xiàn)出來(lái)(見(jiàn)圖3),圖中用節(jié)點(diǎn)大小表示各個(gè)學(xué)科的共同資助數(shù)量(包括同一學(xué)科項(xiàng)目之間共同資助),不同學(xué)科之間的共同資助數(shù)量用邊的粗細(xì)表征,節(jié)點(diǎn)采用不同顏色表明學(xué)科之間的聚類情況。由圖可以看出各個(gè)學(xué)科根據(jù)共同資助的情況主要聚成4個(gè)類,應(yīng)用經(jīng)濟(jì)、管理學(xué)和理論經(jīng)濟(jì)項(xiàng)目共同資助的情況最為常見(jiàn),同一學(xué)科內(nèi)的項(xiàng)目共同資助數(shù)量分別達(dá)到390次、281次和155次,應(yīng)用經(jīng)濟(jì)與理論經(jīng)濟(jì)、管理學(xué)之間的共同資助數(shù)量為203次和200次。此外,語(yǔ)言學(xué)、社會(huì)學(xué)、馬列·科社、體育學(xué)等學(xué)科,學(xué)科內(nèi)共同資助數(shù)量較多,從總體上看,學(xué)科內(nèi)的共同資助比學(xué)科間的共同資助多。

        使用熱力圖呈現(xiàn)出不同類型基金項(xiàng)目之間共同資助一篇論文的情況(見(jiàn)圖4),可以發(fā)現(xiàn),學(xué)者發(fā)表論文時(shí)傾向于將重大項(xiàng)目與其他項(xiàng)目共同標(biāo)注,這可能是因?yàn)橹卮箜?xiàng)目研究?jī)?nèi)容是各學(xué)科的基礎(chǔ),意義重大,影響深遠(yuǎn)。同時(shí),與其他類型項(xiàng)目相比,重大項(xiàng)目規(guī)模更大,涵蓋的研究?jī)?nèi)容更廣,容易與其他類型項(xiàng)目研究?jī)?nèi)容產(chǎn)生重疊。

        4? ?研究論文與標(biāo)注的基金情況分析

        為探究研究論文與其標(biāo)注的基金項(xiàng)目研究?jī)?nèi)容之間的相關(guān)性,判別科研論文發(fā)表過(guò)程中是否存在基金不實(shí)標(biāo)注的問(wèn)題,筆者探索了文本相似度方法在本研究中的應(yīng)用。根據(jù)抓取的數(shù)據(jù)源,基金項(xiàng)目的大致研究?jī)?nèi)容只能通過(guò)項(xiàng)目標(biāo)題呈現(xiàn),論文成果的研究?jī)?nèi)容可以通過(guò)標(biāo)題、摘要和關(guān)鍵詞體現(xiàn)。

        4.1? ? word2vec 模型

        Word2vec[18]是Mikolov于2013年提出的一種神經(jīng)語(yǔ)言模型,使用Skip-Gram模型或Continuous Bag of Words(CBOW)模型預(yù)測(cè)上下文和中心詞是否共現(xiàn),能夠充分捕獲詞的上下文語(yǔ)義、語(yǔ)法信息。傳統(tǒng)的詞袋模型假設(shè)特征詞兩兩之間獨(dú)立,在面對(duì)數(shù)據(jù)稀疏問(wèn)題時(shí)不能很好地判定句子之間語(yǔ)義相關(guān)性。Word2vec模型將詞匯表示為定長(zhǎng)分布式向量的形式,詞匯之間的語(yǔ)義相似度可以通過(guò)向量之間的距離或夾角余弦值衡量。本文以騰訊AI Lab提供的開(kāi)源中文詞向量作為預(yù)訓(xùn)練詞向量[19],將獲取到的國(guó)家社科基金項(xiàng)目標(biāo)題與受資助論文標(biāo)題、摘要、關(guān)鍵詞等題錄信息作為訓(xùn)練語(yǔ)料,采用結(jié)巴分詞工具進(jìn)行分詞,并使用Skip-Gram模型將本文獲取的語(yǔ)料在騰訊詞向量的基礎(chǔ)上進(jìn)行fine-tune訓(xùn)練,得到進(jìn)一步研究的領(lǐng)域詞向量。

        本文進(jìn)一步將基金項(xiàng)目標(biāo)題與受資助論文標(biāo)題、摘要、關(guān)鍵詞等信息通過(guò)詞向量表示為分布式向量形式,利用余弦相似度公式計(jì)算向量之間的相似度,得到了受資助論文與社科基金之間的相關(guān)性,并展示了不同相似度區(qū)間中基金標(biāo)題與論文標(biāo)題的相關(guān)性示例(見(jiàn)表3)。

        從表3各個(gè)相似度區(qū)間的示例可以看出,分布式詞向量對(duì)語(yǔ)義的理解較為充分,從第5行的結(jié)果來(lái)看,分布式詞向量規(guī)避了傳統(tǒng)詞袋模型的獨(dú)立性假設(shè),能夠可靠地表達(dá)句子之間的語(yǔ)義相似度。從第2行中的論文標(biāo)題來(lái)看,這篇論文屬于自然科學(xué)研究范疇,與本文的數(shù)據(jù)來(lái)源——國(guó)家社科基金資助的社會(huì)科學(xué)論文成果差異明顯。為確保數(shù)據(jù)獲取過(guò)程中不存在錯(cuò)誤,筆者追溯原始數(shù)據(jù)發(fā)現(xiàn)這篇論文的基金字段注明“國(guó)家自然科學(xué)基金資助項(xiàng)目(17BSH044)”。然而該項(xiàng)目批準(zhǔn)號(hào)與國(guó)家自然科學(xué)基金編碼格式不相符,且筆者通過(guò)該項(xiàng)目批準(zhǔn)號(hào)在“國(guó)家自然科學(xué)基金管理信息系統(tǒng)”中檢索不到項(xiàng)目信息,初步判定該論文基金項(xiàng)目標(biāo)注錯(cuò)誤,致使本研究在數(shù)據(jù)抓取過(guò)程中,根據(jù)項(xiàng)目批準(zhǔn)號(hào)匹配到了2017年社會(huì)學(xué)國(guó)家社科基金一般項(xiàng)目“建立城鄉(xiāng)統(tǒng)一的社會(huì)養(yǎng)老保障制度體系研究”。實(shí)驗(yàn)結(jié)果表明,借助Word2vec文本相似度方法能夠計(jì)算出論文與所標(biāo)注基金項(xiàng)目的相關(guān)性,進(jìn)而為判斷基金不實(shí)標(biāo)注的情況提供依據(jù)。

        4.2? ? 國(guó)家社科基金“一文多注”研究

        很多學(xué)者在基金標(biāo)注規(guī)范研究中探討過(guò)“一文多注”現(xiàn)象,目前論文發(fā)表普遍存在“一文多注”的現(xiàn)象,即大多數(shù)論文在投稿時(shí)標(biāo)注了多個(gè)基金資助項(xiàng)目。分析這一現(xiàn)象的成因,一方面體現(xiàn)了科研合作與交流普遍存在,另一方面,也反映出可能存在基金重復(fù)資助或基金項(xiàng)目號(hào)不實(shí)標(biāo)注的情況。針對(duì)國(guó)家社科基金項(xiàng)目“一文多注”的情況,筆者篩選出標(biāo)注了兩個(gè)以上國(guó)家社科基金資助的論文。考慮到檢測(cè)出基金不實(shí)標(biāo)注可能造成的社會(huì)影響,本研究首先根據(jù)分布式詞向量計(jì)算論文題錄信息與基金標(biāo)題的語(yǔ)義相似度,再通過(guò)人工校驗(yàn)確保結(jié)果的可靠性。

        本文選擇6129篇標(biāo)注了兩個(gè)以上國(guó)家社科基金的論文,這些論文共形成了12750條論文與基金項(xiàng)目的標(biāo)注關(guān)系。存在部分項(xiàng)目信息沒(méi)有收錄在國(guó)家社科基金項(xiàng)目數(shù)據(jù)庫(kù)中,因此能查閱到項(xiàng)目批準(zhǔn)號(hào)對(duì)應(yīng)項(xiàng)目標(biāo)題的數(shù)據(jù)有12188條,選擇其中出現(xiàn)兩次以上的論文數(shù)據(jù)進(jìn)行人工判別,共11660條。為避免人工判別的主觀性,本研究組織了兩名博士研究生和兩名本科生分成兩組獨(dú)立進(jìn)行評(píng)判工作,然后比對(duì)兩組評(píng)判結(jié)果,只保留意見(jiàn)一致的結(jié)果。

        人工評(píng)判遵循以下三條標(biāo)準(zhǔn):

        (1)論文內(nèi)容與標(biāo)注的基金項(xiàng)目研究?jī)?nèi)容是否存在差異;

        (2)一篇論文標(biāo)注的幾個(gè)基金項(xiàng)目之間研究?jī)?nèi)容是否存在差異;

        (3)標(biāo)注了同一個(gè)基金項(xiàng)目的不同論文之間研究?jī)?nèi)容是否存在差異。

        最終得到410條論文-基金數(shù)據(jù)存在研究?jī)?nèi)容不一致的情況,涉及到278篇論文和283個(gè)基金項(xiàng)目,存在部分論文與標(biāo)注的多個(gè)基金項(xiàng)目在研究?jī)?nèi)容上不相關(guān),部分基金項(xiàng)目被多篇不相關(guān)的論文標(biāo)注。

        本文節(jié)選了部分論文與標(biāo)注的基金項(xiàng)目研究?jī)?nèi)容不相關(guān)數(shù)據(jù)示例(見(jiàn)表4)。在278篇論文中,有120篇論文與標(biāo)注的基金項(xiàng)目研究?jī)?nèi)容都存在差異,稱為集合A;有158篇論文與標(biāo)注的部分基金項(xiàng)目在研究?jī)?nèi)容上相近,部分基金項(xiàng)目研究?jī)?nèi)容有差異,稱為集合B。

        在集合A的論文中筆者發(fā)現(xiàn)一篇文章的基金字段標(biāo)注了“國(guó)家哲學(xué)社會(huì)科學(xué)課題青年項(xiàng)目“邊疆民族地區(qū)基層社會(huì)治理創(chuàng)新實(shí)踐與規(guī)范化建設(shè)研究”(15CJL049)”,而“15CJL049”實(shí)際是項(xiàng)目“垂直專業(yè)化背景下中國(guó)制造業(yè)國(guó)內(nèi)技術(shù)含量的動(dòng)態(tài)變化及影響因素研究”的批準(zhǔn)號(hào),呼吁作者投稿和編輯部審稿過(guò)程中需要仔細(xì)檢查這類書(shū)寫(xiě)錯(cuò)誤。并且在這120篇論文中絕大多數(shù)在基金字段都只標(biāo)注了項(xiàng)目類型和項(xiàng)目批準(zhǔn)號(hào),沒(méi)有標(biāo)注項(xiàng)目名稱,筆者無(wú)法根據(jù)作者提供的信息判斷是否為書(shū)寫(xiě)錯(cuò)誤。

        集合B中的論文標(biāo)注了研究?jī)?nèi)容相近的基金項(xiàng)目,同時(shí)標(biāo)注了存在差異的基金項(xiàng)目,筆者認(rèn)為這充分說(shuō)明作者存在標(biāo)注不實(shí)基金的主觀意圖。對(duì)這部分存在差異的基金項(xiàng)目類型統(tǒng)計(jì)得到:一般項(xiàng)目67項(xiàng),青年項(xiàng)目37項(xiàng),重點(diǎn)項(xiàng)目28項(xiàng),重大項(xiàng)目27項(xiàng)。考慮到每年的一般項(xiàng)目和青年項(xiàng)目立項(xiàng)數(shù)遠(yuǎn)高于重點(diǎn)項(xiàng)目和重大項(xiàng)目,證明了學(xué)者在投稿時(shí)為了提高錄用概率,標(biāo)注重點(diǎn)和重大項(xiàng)目等有影響力的項(xiàng)目以拔高論文水平的現(xiàn)象確實(shí)存在。

        5? ?總結(jié)與討論

        本文以2014-2018年的國(guó)家社科基金項(xiàng)目為例,采用網(wǎng)絡(luò)爬蟲(chóng)抓取了基金項(xiàng)目的論文成果,通過(guò)實(shí)證研究探索了論文中基金項(xiàng)目的“一文多注”和不實(shí)標(biāo)注情況?!耙晃亩嘧ⅰ钡那闆r目前較為常見(jiàn),主要體現(xiàn)在標(biāo)注不同等級(jí)的基金項(xiàng)目,同時(shí)標(biāo)注多項(xiàng)國(guó)家社科基金項(xiàng)目的論文比例相對(duì)減少,占比7.6%。“一文多注”情況呈現(xiàn)出明顯的學(xué)科差異,經(jīng)濟(jì)與管理學(xué)科較為常見(jiàn)。從國(guó)家社科基金項(xiàng)目類型來(lái)看,重大項(xiàng)目與其他類型項(xiàng)目共同標(biāo)注較多。隨著人工智能技術(shù)的進(jìn)展,深度學(xué)習(xí)模型已經(jīng)能夠較好的識(shí)別語(yǔ)義。Word2vec模型的實(shí)驗(yàn)結(jié)果表明,僅通過(guò)自動(dòng)化模型已經(jīng)能識(shí)別論文與所標(biāo)注基金項(xiàng)目研究?jī)?nèi)容存在的差異。但基金不實(shí)標(biāo)注與其他學(xué)術(shù)不端行為相比更具隱蔽性,基金標(biāo)注的真實(shí)性需要付出大量精力進(jìn)行考證,呼吁學(xué)者在投稿時(shí)不要出現(xiàn)這類投機(jī)行為。期刊編輯部在審稿過(guò)程中應(yīng)重視基金項(xiàng)目的審核,確保作者填寫(xiě)完整的基金信息。同時(shí),相關(guān)部門(mén)應(yīng)加大力度建設(shè)、完善相應(yīng)基金項(xiàng)目數(shù)據(jù)庫(kù),國(guó)家與地方各級(jí)基金項(xiàng)目統(tǒng)籌管理,項(xiàng)目批準(zhǔn)號(hào)作為基金項(xiàng)目的唯一標(biāo)識(shí)符不應(yīng)出現(xiàn)不同項(xiàng)目共用的現(xiàn)象。

        參考文獻(xiàn):

        [1]? 韓磊,邱源.學(xué)術(shù)期刊須警惕基金論文中基金項(xiàng)目不實(shí)標(biāo)注現(xiàn)象[J].編輯學(xué)報(bào),2017,29(2):151-154.

        [2]? 陳曉文,屈寶強(qiáng),劉蔚,等.基于論文著錄信息的基金類別共現(xiàn)分析[J].中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2018,27(12):50-57.

        [3]? 金偉.科技期刊論文基金項(xiàng)目標(biāo)注的混亂性、真實(shí)性問(wèn)題[J].遼寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,37(4):547-550.

        [4]? 王楚鴻.科技論文“一文多注(標(biāo)注)”現(xiàn)象分析[J].科學(xué)學(xué)研究,2009,27(5):711-715.

        [5]? 藍(lán)永洪.科技論文中成果所屬作者、單位、基金和作者貢獻(xiàn)標(biāo)注的探討[J].科技視界,2018(36):53-54.

        [6]? 王小艷.科技論文基金項(xiàng)目標(biāo)注不實(shí)分析及對(duì)策[J].中國(guó)科技期刊研究,2014,25(7):954-957,974.

        [7]? 趙麗瑩,楊波,張榮麗,等.關(guān)于科技論文多項(xiàng)基金標(biāo)注的幾點(diǎn)建議[J].中國(guó)科技期刊研究,2009,20(4):729-731.

        [8]? 古繼寶,周捷,梁樑.科技論文資助重復(fù)率統(tǒng)計(jì)分析與形成機(jī)制研究[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2008(9):24-28.

        [9]? 楊敏敏,Gretchen McAllister.國(guó)際學(xué)界“一帶一路”研究的熱詞與最前沿——基于Web of Science(2014-2018)的文本計(jì)量與細(xì)讀[J].西南民族大學(xué)學(xué)報(bào)(人文社科版),2020,41(5):234-240.

        [10]? 李宗剛,謝慧聰.70年來(lái)《魯迅全集》注釋研究熱點(diǎn)與前沿動(dòng)態(tài)分析——基于1949-2018年超星數(shù)據(jù)的分析[J].西南民族大學(xué)學(xué)報(bào)(人文社科版),2020,41(4):229-235.

        [11]? 洪磊,王昊.公安情報(bào)研究現(xiàn)狀及熱點(diǎn)分析——基于CNKI期刊論文的計(jì)量學(xué)和關(guān)鍵詞聚類研究[J].西南民族大學(xué)學(xué)報(bào)(人文社科版),2019,40(7):234-240.

        [12]? 賈文龍.新世紀(jì)以來(lái)國(guó)內(nèi)高校圖書(shū)館研究領(lǐng)域的全景回顧及未來(lái)展望——基于CSSCI來(lái)源期刊(2000-2017)的知識(shí)圖譜分析[J].西南民族大學(xué)學(xué)報(bào)(人文社科版),2019,40(8):233-240.

        [13]? 苗亞靜.科技論文中基金項(xiàng)目多重標(biāo)注歸因分析及對(duì)策研究[J].寶雞文理學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2013,33(4):109-112.

        [14]? 陳沙沙,劉春平.關(guān)于學(xué)術(shù)期刊論文基金項(xiàng)目著錄的編輯問(wèn)題[J].編輯學(xué)報(bào),2008(3):231-232.

        [15]? 白雪娜,張輝玲,黃修杰.科技論文基金項(xiàng)目標(biāo)注的不端行為及防范對(duì)策研究——基于178篇論文標(biāo)注209個(gè)國(guó)家自然科學(xué)基金項(xiàng)目的實(shí)證分析[J].編輯學(xué)報(bào),2017,29(3):260-264.

        [16]? 蘇新寧,王東波.學(xué)術(shù)評(píng)價(jià)相關(guān)問(wèn)題與思考[J].信息資源管理學(xué)報(bào),2018,8(3):4-11.

        [17]? 葉文豪,王東波,沈思,等.基于孿生網(wǎng)絡(luò)的基金與受資助論文相關(guān)性判別模型構(gòu)建研究[J].情報(bào)學(xué)報(bào),2020,39(6):609-618.

        [18]? Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013.

        [19]? Song Y,Shi S,Li J,et al.Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings[C].Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2018:175-180.

        作者簡(jiǎn)介:葉文豪(1994-),男,南京大學(xué)信息管理學(xué)院、江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室博士研究生,研究方向:文本挖掘;洪磊(1988-),男,南京大學(xué)信息管理學(xué)院博士研究生,講師,研究方向:安全情報(bào)和數(shù)據(jù)挖掘;唐夢(mèng)嘉(1997-),女,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院本科生;張逸勤(2000-),女,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院本科生。

        夜夜春亚洲嫩草影院| 成人国产乱对白在线观看| 精品一区二区亚洲一二三区| 一区二区三区日本伦理| 国产电影一区二区三区| 永久免费的av在线电影网无码| 久久国产免费观看精品| 视频一区中文字幕在线观看| 日韩少妇人妻中文字幕| 男女上下猛烈啪啪免费看| 一级午夜视频| 久久国产劲爆内射日本| 久久99天堂av亚洲av| 免费毛片a线观看| 初高中生精品福利视频| 中文字幕二区三区在线| 熟妇高潮一区二区三区在线观看| 亚洲人成网站18禁止久久影院| 日韩在线观看你懂的| 蜜臀一区二区av天堂| 亚洲中文字幕国产视频| a级毛片免费观看网站| 自拍亚洲一区欧美另类| 日本韩国一区二区高清| 性无码一区二区三区在线观看| 婷婷丁香五月中文字幕| 午夜无码无遮挡在线视频| 国产三级不卡视频在线观看| 日本高清视频wwww色| 久久精品国产亚洲av成人| 中文字幕乱码av在线| 中文字幕人妻少妇伦伦| 亚洲精品国产av天美传媒| 在线观看网址你懂的| 亚洲少妇一区二区三区老| 后入内射国产一区二区| 欧美粗大无套gay| 国产精品一区成人亚洲| 熟女一区二区中文字幕| 99久久婷婷国产综合精品电影| 一本色道久久婷婷日韩|