亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于VSM和余弦相似度的稿件精準(zhǔn)送審方法

        2018-10-19 02:27:20孟美任彭希珺
        中國科技期刊研究 2018年10期
        關(guān)鍵詞:信息研究

        ■孟美任 彭?,B

        1)中國科學(xué)院文獻(xiàn)情報(bào)中心,北京市中關(guān)村北四環(huán)西路33號(hào) 1001902)中國科學(xué)院大學(xué),北京市石景山區(qū)玉泉路19號(hào)(甲) 100049

        同行評(píng)議是學(xué)術(shù)期刊質(zhì)量控制的有力手段,為論文匹配合適的外審專家是充分發(fā)揮同行評(píng)議價(jià)值的首要環(huán)節(jié),對(duì)縮短出版周期、把控論文質(zhì)量、保證研究成果的時(shí)效性等都至關(guān)重要。論文的研究主題與外審專家研究方向的一致性是外審專家接受審稿并給出準(zhǔn)確審稿意見的必要條件[1]。目前,論文的送審主要是編輯參考期刊留存的審稿專家信息,憑編輯經(jīng)驗(yàn)進(jìn)行論文主題與審稿專家研究方向的匹配。然而,期刊留存的審稿專家信息往往存在內(nèi)容缺失、更新不及時(shí)等問題[2],導(dǎo)致因“主題不符”的拒審時(shí)有發(fā)生[3]。送審有誤不僅影響作者對(duì)刊物的信任,而且成果發(fā)表的時(shí)效性也無法保證。因此,采取不同措施維護(hù)和更新外審專家信息逐漸受到學(xué)者和期刊的重視。如InternationalJournalofAutomationandComputing主要通過群發(fā)郵件,讓審稿專家自行更新信息。同時(shí),編輯部也通過互聯(lián)網(wǎng)檢索信息,更新信息后讓外審專家確認(rèn)[1]?!吨腥A微生物學(xué)和免疫學(xué)雜志》在每年10—11月通過群發(fā)短信和郵件的方式提醒審稿人更新信息[3]。然而,不論是通過人工主動(dòng)搜集的方式,還是邀請(qǐng)專家自行更新或確認(rèn)的方式,即便是構(gòu)建再完整的專家信息庫,都未能很好地解決編輯憑經(jīng)驗(yàn)進(jìn)行稿件匹配的主觀性問題。

        為解決由于編輯經(jīng)驗(yàn)有限、留存信息陳舊、專家研究方向轉(zhuǎn)變等因素導(dǎo)致拒審[4]的問題,本文擬基于外審專家近年的發(fā)文數(shù)據(jù),結(jié)合向量空間模型(Vector Space Model, VSM)和余弦相似度模型實(shí)現(xiàn)稿件與審稿專家的精準(zhǔn)匹配。該方法的創(chuàng)新性主要體現(xiàn)在兩個(gè)方面:(1)基于專家近年發(fā)文數(shù)據(jù)構(gòu)建專家VSM來準(zhǔn)確概括外審專家近期研究方向;(2)結(jié)合余弦相似度模型進(jìn)行外審專家匹配能夠避免編輯送審的主觀性。稿件精準(zhǔn)送審方法在提高稿件送審準(zhǔn)確率、降低拒審概率方面具有一定的應(yīng)用價(jià)值。

        1 外審情況分析

        為發(fā)掘外審專家拒審的主要原因,并提出合理的解決方案,筆者以《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》為例,對(duì)該刊2015年1月1日至2017年12月31日的外審情況進(jìn)行分析。

        1.1 專家?guī)熘谢钴S的外審專家較少

        《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》的審稿系統(tǒng)中共有155位外審專家,2015年1月1日至2017年12月31日,外審專家的審稿量分布如圖1所示。

        圖1 《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》外審專家審稿量分布

        由圖1可知,在此期間只有92位外審專家參與審稿,參與率不到60%。其中:超過20%的外審專家的審稿數(shù)量少于3篇;7位審稿專家的審稿量超過了20篇,共計(jì)審稿174篇,約占總送審稿件(749篇)的1/4。

        可見,憑經(jīng)驗(yàn)匹配審稿專家會(huì)導(dǎo)致經(jīng)常接受審稿的專家集中在一個(gè)相對(duì)固定的小群體,而邀請(qǐng)審稿量少的審稿專家過于頻繁會(huì)增加拒稿的可能,并且對(duì)稿件的質(zhì)量控制存在隱患。因此,亟需設(shè)計(jì)一種科學(xué)、合理的送審方法以避免編輯憑經(jīng)驗(yàn)送審導(dǎo)致的主觀性、局限性以及不準(zhǔn)確等問題。

        1.2 拒審導(dǎo)致審稿周期延長

        進(jìn)一步對(duì)2015年1月1日至2017年12月31日的拒審情況進(jìn)行分析,3年內(nèi)共有135篇(18%)稿件被拒審,其中有19篇稿件2次外審被拒,2篇稿件甚至3次被拒,具體統(tǒng)計(jì)結(jié)果如表1所示。

        表1 《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》稿件拒審統(tǒng)計(jì)

        為了解拒審對(duì)錄用周期的影響,筆者對(duì)無拒審記錄和有拒審記錄的已錄用稿件的平均外審周期和平均錄用周期進(jìn)行對(duì)比分析,結(jié)果如表2所示。

        表2 有、無拒審記錄稿件的外審周期和錄用周期

        根據(jù)統(tǒng)計(jì)結(jié)果,158次的拒審中,給出理由的共有86次(55.13%),其中,理由是“太忙”的共22次,“主題不熟悉”的有64次。此外,很快做出拒審決定的審稿人所給出的理由往往都是“太忙”或“主題不熟悉”,而較多拖延很久才拒審的專家并未給出拒審理由。

        可見,拒審會(huì)延長稿件的發(fā)表周期,而為稿件匹配主題相符的審稿專家能夠在一定程度上降低稿件拒審概率。

        2 研究方法

        稿件送審工作的實(shí)質(zhì)就是論文研究主題與外審專家研究方向的高度匹配。根據(jù)調(diào)研分析結(jié)果發(fā)現(xiàn),目前大多數(shù)刊物仍然采用編輯根據(jù)審稿專家?guī)斓牧舸嫘畔{借經(jīng)驗(yàn)進(jìn)行主題匹配的方法,也有部分采編系統(tǒng)以關(guān)鍵詞匹配功能輔助編輯送審。但實(shí)際上,專家信息庫中的信息由專家自主填寫,一方面沒有得到及時(shí)更新,另外往往使用較為概括的詞匯且概括詞匯數(shù)量較少。針對(duì)以上問題,筆者認(rèn)為應(yīng)以審稿專家近年發(fā)文作為其研究方向的描述源較為準(zhǔn)確、合理,并且有研究發(fā)現(xiàn)遴選“小同行”評(píng)議他們所熟知的學(xué)科領(lǐng)域內(nèi)的科研項(xiàng)目,能夠提高評(píng)審專家與被評(píng)項(xiàng)目匹配的精準(zhǔn)性,能夠提高科研評(píng)審的評(píng)價(jià)質(zhì)量[5],即最能夠表征某位審稿專家研究興趣的關(guān)鍵詞,應(yīng)是該專家較多使用,而他人較少使用的詞匯。鑒于此,筆者擬基于專家近年發(fā)文構(gòu)建專家VSM,準(zhǔn)確概括外審專家近期研究方向;使用詞頻-逆文檔頻度(Term Frequency-Inverse Document Frequency, TF-IDF)方法計(jì)算關(guān)鍵詞權(quán)重,以充分區(qū)別每位審稿專家的研究興趣;使用余弦相似度模型進(jìn)行稿件主題與外審專家研究興趣的相似度計(jì)算。

        2.1 VSM

        VSM是由Salton[6]于1968年提出的一種文本表示模型,將文檔表示為一組詞向量,通過計(jì)算向量之間的相似性得到文檔之間的相似度。設(shè)文檔d包含n個(gè)關(guān)鍵詞(kterm),則d={kterm1,kterm2,…,ktermn},其中每一個(gè)ktermi在文檔中都會(huì)有一個(gè)權(quán)重(wi)來表示該詞在影響文檔相關(guān)度中的重要程度。即d可以被描述為一組關(guān)鍵詞的向量:

        V(d)={w1(d)kterm1,w2(d)kterm2,…,wn(d)ktermn}

        (1)

        2.2 TF-IDF

        最能表征一個(gè)文檔的關(guān)鍵詞應(yīng)該是既在該文檔中出現(xiàn)頻率較高,又在其他文檔中出現(xiàn)頻率較低的詞語。因此,本研究使用信息檢索領(lǐng)域的TF-IDF[7]計(jì)算關(guān)鍵詞在向量中的權(quán)重:

        wi=tfidf(i,d)=fTF-id·fIDF-i

        (2)

        fTF-id=ni/Nd

        (3)

        (4)

        式中fTF-id為詞頻,fIDF-i為逆文檔頻度,ni為詞ktermi在文檔d中出現(xiàn)的次數(shù),Nd為文檔d的總詞數(shù),D為總文檔數(shù),di為包含i的文檔數(shù),{di:ktermi∈d}為包含詞語ktermi的文檔數(shù),為使分母不為0,一般使用{di:ktermi∈d}+1對(duì)其進(jìn)行平滑處理??梢姡绻粋€(gè)詞在所有文檔中都高頻出現(xiàn)(如“的”“這”等),其fIDF-i就越小,因而可以有效降低該類詞的權(quán)值。

        2.3 余弦相似度計(jì)算

        通過計(jì)算向量空間中兩個(gè)向量夾角θ的余弦值,并以此衡量兩個(gè)個(gè)體間的差異,余弦值越接近1,夾角度數(shù)越接近0,說明兩個(gè)向量越相似。對(duì)于一篇新文檔e,同樣利用(1)~(4)式可以計(jì)算得到文檔e的權(quán)重,文檔e與文檔集合D中的文檔d的相似度計(jì)算公式為

        (5)

        3 稿件精準(zhǔn)送審

        3.1 數(shù)據(jù)采集

        筆者在中國知網(wǎng)中使用專業(yè)檢索獲取《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》155位外審專家(記為集合P)2013年5月31日至2018年5月31日發(fā)表在圖書館學(xué)、情報(bào)學(xué)、信息科學(xué)、自動(dòng)化技術(shù)以及計(jì)算機(jī)技術(shù)類的46種期刊[期刊遴選標(biāo)準(zhǔn):《中文核心期刊要目總覽(2014年版)》中G25 圖書館事業(yè)、信息事業(yè)類18種以及TP自動(dòng)化技術(shù)、計(jì)算機(jī)技術(shù)類的26種期刊;中文社會(huì)科學(xué)引文索引中圖書館、情報(bào)與文獻(xiàn)學(xué)(非檔案類)18種期刊。兩類合計(jì)去重后共46種期刊]中的所有文章。為準(zhǔn)確體現(xiàn)作者研究主題,只保留外審專家是排名前3的作者的文章,共獲得文章1805篇(記為集合D)。統(tǒng)計(jì)集合P中每一位外審專家p在集合D中的所有發(fā)文d,提取di中的所有關(guān)鍵詞t={tp1,tp2,…,tpn}。令w={w1,w2,…,wn},為待審文章集合A對(duì)應(yīng)的關(guān)鍵詞。

        3.2 算法實(shí)現(xiàn)

        本研究使用Python 2.7軟件中g(shù)ensim庫實(shí)現(xiàn)相似度計(jì)算,核心算法的過程為

        輸入:t,w;

        輸出:與待審稿件相似度排名前10的審稿專家名單(list)和相似度s。

        (1) 使用gensim庫中corpora.Dictionary方法對(duì)所有外審專家發(fā)文關(guān)鍵詞構(gòu)建字典(key:value),其中key為關(guān)鍵詞,value為詞編號(hào),

        dictionary=corpora.Dictionary(t);

        (2) 使用gensim庫中doc2bow方法分別構(gòu)建外審專家向量和待審稿件向量:

        corpus=[dictionary.doc2bow(tp)for text int],

        new=dictionary.doc2bow(w);

        (3) 使用models.TfidfModel(·)初始化tfidf模型,分別利用外審專家向量和待審稿件向量轉(zhuǎn)化為tfidf值:

        tfidf=models.TfidfModel(corpus),

        tfidf_corpus=tfidf[corpus],

        tfidf_test=tfidf[new];

        (4) 為tfidf_corpus創(chuàng)建索引index,進(jìn)行待審稿件的相似度計(jì)算:

        index=similarities.SparseMatrixSimilarity(tfidf_corpus),

        sim=index[tfidf_test];

        (5) 對(duì)相似度值進(jìn)行降序,取前10:

        sort=sorted(sim, reverse=True)。

        本研究數(shù)據(jù)為文章的關(guān)鍵詞,如果增加文章的摘要、正文,則需要進(jìn)行切詞以及停用詞、低頻詞清洗。

        3.3 驗(yàn)證實(shí)驗(yàn)

        為驗(yàn)證該方法的有效性,筆者獲取《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》2018年1~5期發(fā)表的55篇文獻(xiàn)的關(guān)鍵詞,使用該方法計(jì)算得到每篇文章最匹配的10個(gè)審稿專家,限于篇幅,只對(duì)10篇排序第1的審稿專家的關(guān)鍵詞進(jìn)行分析,結(jié)果如表3所示。由于該刊采用單向盲審,因此使用專家編號(hào)代替實(shí)名。

        通過觀察表3中的第2、4列可知,該方法推薦的最優(yōu)外審專家的發(fā)文關(guān)鍵詞與待審稿件的關(guān)鍵詞非常契合。筆者進(jìn)一步獲取這10篇文章的摘要和正文進(jìn)行深入分析,發(fā)現(xiàn):文章1對(duì)移動(dòng)購物App中用戶的信息瀏覽、用戶購買行為進(jìn)行分析,以預(yù)測(cè)商品購買決策,而編號(hào)135的外審專家致力于電子商務(wù)領(lǐng)域的用戶行為分析;文章2旨在考察不同類型媒介信息對(duì)股票投資者過度交易行為的影響,而編號(hào)4的外審專家的一個(gè)研究方向即是對(duì)股票的數(shù)據(jù)分析;文章3主要對(duì)網(wǎng)絡(luò)評(píng)論情感可視化的相關(guān)研究進(jìn)行綜述,而編號(hào)117的專家在網(wǎng)絡(luò)輿情、情感分析方面頗有建樹;文章4主要探討通過深度學(xué)習(xí)進(jìn)行自動(dòng)圖像標(biāo)注,而編號(hào)66的專家致力于標(biāo)注方法、圖像識(shí)別等相關(guān)領(lǐng)域的研究;文章5旨在探討關(guān)聯(lián)大數(shù)據(jù)管理技術(shù)的對(duì)策和解決思路,而編號(hào)21的專家研究也同樣圍繞關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)絡(luò)等;文章6旨在通過主題識(shí)別,提高競爭情報(bào)收集的準(zhǔn)確率和效率,而編號(hào)32正是競爭情報(bào)領(lǐng)域的專家;文章7旨在探索高維結(jié)構(gòu)化電子病歷數(shù)據(jù)的降維策略,而編號(hào)72正是醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)專家;文章8研究概念設(shè)計(jì)過程知識(shí)的語義建模技術(shù),而編號(hào)102的專家正是知識(shí)工程領(lǐng)域的專家;文章9研究患者對(duì)在線醫(yī)療問答系統(tǒng)的使用意愿,而編號(hào)106的專家曾對(duì)醫(yī)療社區(qū)的用戶交互行為進(jìn)行研究;文章10旨在準(zhǔn)確識(shí)別科技論文中數(shù)值指標(biāo)的實(shí)際取值,而編號(hào)41是自然語言處理、數(shù)據(jù)挖掘領(lǐng)域的專家。

        表3 最優(yōu)外審專家結(jié)果列表(部分)

        該程序可以批量對(duì)稿件進(jìn)行審稿人匹配,并且按照相似度對(duì)審稿人進(jìn)行降序排序,同時(shí)給出文章關(guān)鍵詞,以及審稿專家曾發(fā)文關(guān)鍵詞供編輯參考,考慮刊物采用單盲審,因此將專家名隱去,效果如圖2所示。

        圖2 稿件送審?fù)扑]結(jié)果效果圖

        由圖2可知,該程序可以為編輯送審工作提供有力支持,以降低因?qū)<倚畔㈥惻f和編輯未能實(shí)時(shí)、準(zhǔn)確跟蹤外審專家研究方向的變化而導(dǎo)致“主題不符”類拒審的發(fā)生概率。編輯可根據(jù)推薦結(jié)果,綜合考慮并選擇審稿專家,如審稿專家正在審稿或已在近期有過審稿記錄時(shí),可向后順位選擇;或外審專家與作者同單位甚至正是作者時(shí),也需要向后順位選擇。

        為了驗(yàn)證該程序的有效性,筆者于2018年6月14日至2018年8月13日使用所開發(fā)的工具對(duì)56篇稿件進(jìn)行送審,除3位審稿專家由于假期原因拒絕審稿外,尚無其他拒審事件發(fā)生。而且在使用該工具進(jìn)行送審后,專家意見更加充實(shí)具體,在一定程度上也反映出送審文章的主題與專家興趣的匹配程度有所提高。在未來的工作中,筆者將持續(xù)使用該程序,并階段性地對(duì)審稿專家進(jìn)行問卷、訪談等多種形式調(diào)研,聽取反饋意見以不斷改進(jìn),盡可能降低拒審概率,縮短文章的發(fā)表周期。

        4 結(jié)語

        快速、精準(zhǔn)地匹配審稿專家對(duì)于縮短發(fā)表周期、提高編輯工作效率、提高刊物影響力具有重要的現(xiàn)實(shí)意義。本研究將基于VSM的余弦相似度計(jì)算方法應(yīng)用到稿件的送審工作中,極大降低了稿件的拒審概率,并且為審稿專家信息更新提供了一種新的途徑。

        本研究只針對(duì)刊物已有的外審專家進(jìn)行了信息更新,下一步筆者將獲取基金立項(xiàng)信息、國際發(fā)文情況、專家主頁等數(shù)據(jù)擴(kuò)充審稿專家?guī)?,并同時(shí)考慮專家以往審稿記錄、審稿偏好等特殊情況,以提高送審準(zhǔn)確率。另外,對(duì)于交叉學(xué)科的文章如何進(jìn)行更加全面、客觀的同行評(píng)議也值得進(jìn)一步研究。

        猜你喜歡
        信息研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會(huì)信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        日本精品极品视频在线| 蜜臀av中文人妻系列| 日本又黄又爽gif动态图| 亚洲综合色区一区二区三区| 国产一区二区三区porn| 亚洲Va中文字幕久久无码一区 | 久久99精品久久久久九色| 国产人妻精品一区二区三区不卡| 97一期涩涩97片久久久久久久| 日本高清视频一区二区| 69国产成人综合久久精| 亚洲av第一成肉网| 欧美一性一乱一交一视频| 一区二区视频在线观看地址| 亚洲国产av午夜福利精品一区 | 久久久精品亚洲懂色av| 中文字幕不卡在线播放| 精品久久久中文字幕人妻| 日韩日韩日韩日韩日韩| 99久久免费看精品国产一| 中文天堂一区二区三区| 99久久精品无码专区无| 日韩精品一区二区三区视频| 免费少妇a级毛片人成网| 成人欧美一区二区三区在线| 久久精品久99精品免费| 极品新娘高清在线观看| 美女裸体无遮挡黄污网站| 精品人妻无码视频中文字幕一区二区三区| 亚洲av无码专区在线播放中文 | 日韩精品无码中文字幕电影| 欧美亚洲一区二区三区| 国产91色综合久久高清| 能看不卡视频网站在线| 国产亚洲一区二区三区三州| 久久精品国产精品亚洲婷婷| av中文字幕综合在线| 免费无码av片在线观看| 青草视频在线播放| 国产精品亚洲а∨无码播放不卡 | 娇妻在交换中哭喊着高潮|