亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本相似度分析的期刊引文有效性識(shí)別研究

        2018-01-07 09:41:14鞠秀芳
        現(xiàn)代情報(bào) 2018年11期

        鞠秀芳

        〔摘要〕真實(shí)性、準(zhǔn)確性、直接性與完整性是引用參考文獻(xiàn)的首要準(zhǔn)則,然而種種研究表明,當(dāng)前的研究論著中引而不注、過(guò)度引用、模糊標(biāo)注甚至虛假引用等不當(dāng)引用行為日漸增多,這極大地影響了科學(xué)研究領(lǐng)域的學(xué)術(shù)風(fēng)氣,給讀者閱讀、期刊審稿及成果評(píng)定等工作帶來(lái)了許多不便。本文利用文本相似度算法建立期刊引文有效性識(shí)別方法,試圖從海量期刊引文數(shù)據(jù)中識(shí)別出期刊引文的真實(shí)有效性。實(shí)驗(yàn)表明,本文的期刊引文有效性識(shí)別方法在引文有效性方面實(shí)現(xiàn)了較好的識(shí)別效果,可為虛假引文的識(shí)別工作提供可靠的依據(jù),從而為編輯人員發(fā)現(xiàn)、 修正虛假引用問(wèn)題提供幫助,彰顯科學(xué)研究的嚴(yán)謹(jǐn)務(wù)實(shí)精神。

        〔關(guān)鍵詞〕文本相似度;虛假引文;引文有效性;向量空間模型

        DOI:10.3969/j.issn.1008-0821.2018.11.003

        〔中圖分類(lèi)號(hào)〕G250252〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2018)11-0014-04

        Research on Identification of Journal Citation Validity

        Based on Text Similarity AnalysisJu Xiufang

        (Institute for Chinese Social Sciences Research and Assessment,Nanjing University,Nanjing 210093,China)

        〔Abstract〕Truth,accuracy,directness and completeness are the primary criteria for citing references.However,various studies have shown that miscitations such as omission,excessive citation,fuzzy labeling and even false citation in current research works are becoming more and more normal,which have greatly affected the academic atmosphere in the field of scientific research.Peoples reading,periodical review and evaluation of results have brought a lot of inconvenience.In this paper,the text similarity algorithm was used to establish a method to identify the validity of periodical citations,trying to identify the true validity of periodical citations from a large number of periodical citation data.Experiments showed that this method achieved a good recognition effect on Citation validity,and provided a reliable basis for the identification of false citations,thus providing help for editors to find and correct false citations,and highlighting the rigorous and pragmatic spirit of scientific research.

        〔Key words〕text similarity;false citation;citation validity;vector space model

        一般來(lái)說(shuō),真實(shí)性、準(zhǔn)確性、直接性與完整性是引用參考文獻(xiàn)的基本要求。隨著引文分析法在論文評(píng)價(jià)、期刊評(píng)價(jià)、科學(xué)家評(píng)價(jià)、學(xué)科評(píng)價(jià)、科研績(jī)效評(píng)價(jià)和科技競(jìng)爭(zhēng)力評(píng)價(jià)等各個(gè)領(lǐng)域的廣泛應(yīng)用,參考文獻(xiàn)正慢慢脫離“展示科學(xué)研究的繼承性”這一初衷,越來(lái)越多地受到作者、編輯、機(jī)構(gòu)等多方面的人為影響,種種不當(dāng)引用行為日漸增多[1]。王立宏等認(rèn)為學(xué)術(shù)不端行為(抄襲、剽竊、誘引、匿引、轉(zhuǎn)引、濫引、崇引、引而不標(biāo))和引用不當(dāng)行為(過(guò)度引用、錯(cuò)標(biāo)、誤標(biāo)、引用時(shí)差)是不當(dāng)引用的兩大主要表現(xiàn)形式[2];金鐵成認(rèn)為期刊編輯同樣存在引文失范行為,共有6類(lèi)行為:學(xué)術(shù)論文文后沒(méi)有引文、學(xué)術(shù)期刊編輯隨意刪減作者的引文、限制論文的引文數(shù)量、文中不標(biāo)注引文編號(hào)、期刊過(guò)度自引、期刊互惠引用等[3]。種種不當(dāng)?shù)囊眯袨闃O大地影響了科學(xué)研究領(lǐng)域的學(xué)術(shù)風(fēng)氣,給讀者閱讀、期刊審稿及成果評(píng)定等工作帶來(lái)了許多不便。其中,虛假引用無(wú)論是從引文質(zhì)量還是學(xué)術(shù)影響上更是首當(dāng)其沖,對(duì)學(xué)者、期刊、管理者造成了多方面不良的影響。如何從數(shù)量巨大、類(lèi)型復(fù)雜的期刊引文數(shù)據(jù)中識(shí)別出期刊引文的真實(shí)有效性,為學(xué)術(shù)研究正本清源,彰顯科學(xué)研究的嚴(yán)謹(jǐn)務(wù)實(shí)精神,是當(dāng)前引文分析研究領(lǐng)域急需解決的問(wèn)題之一。

        在情報(bào)檢索和信息處理中,面對(duì)海量的非結(jié)構(gòu)化的學(xué)術(shù)論文,關(guān)鍵技術(shù)之一就是文本內(nèi)容的相似度計(jì)算技術(shù)。文本相似度的計(jì)算是各應(yīng)用領(lǐng)域(如搜索引擎、新聞推送、文本聚類(lèi)與分類(lèi)、網(wǎng)頁(yè)查重、機(jī)器翻譯、自動(dòng)問(wèn)答系統(tǒng)等)處理自然語(yǔ)言的關(guān)鍵技術(shù)之一,也是信息處理領(lǐng)域的熱點(diǎn)和難點(diǎn),受到了廣大研究領(lǐng)域的高度重視。本文針對(duì)虛假引用現(xiàn)象,利用文本相似度算法深入論文內(nèi)容研究,嘗試從海量文獻(xiàn)中識(shí)別出期刊引文的真實(shí)有效性。

        2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于文本相似度分析的期刊引文有效性識(shí)別研究Nov.,2018Vol38No111引文有效性的定義及分析

        引文引用是否有效的核心是施引論文中的觀點(diǎn)是否真實(shí)有效的出現(xiàn)在被引文獻(xiàn)之中。一般來(lái)說(shuō),引用參考文獻(xiàn)通常有4種情況:

        1)引用有歷史背景和意義的文獻(xiàn);

        2)引用實(shí)驗(yàn)中的方法;

        3)引用支持性或批判性的證據(jù);

        4)引用相關(guān)文獻(xiàn)用于比較。

        科研工作者出于上述目的在引用他人的概念、數(shù)據(jù)、觀點(diǎn)時(shí)出于表達(dá)的需要,通常有直接引用、間接引用、轉(zhuǎn)引以及隱含引用幾種情況。

        無(wú)論哪種引用目的、哪種引用方式,參考文獻(xiàn)的觀點(diǎn)、數(shù)據(jù)、表述需要真實(shí)有效的出現(xiàn)在施引文獻(xiàn)中,方可判定引文是有效引用。鑒于參考文獻(xiàn)表明了科學(xué)研究的某種繼承性,本文認(rèn)為在施引文獻(xiàn)和參考文獻(xiàn)之間天然存在相關(guān)性,但一般情況下兩者之間并不存在上下關(guān)系、同義關(guān)系或整體——部分等相關(guān)關(guān)系,施引文獻(xiàn)和參考文獻(xiàn)的整體相關(guān)性并不高。施引文獻(xiàn)和參考文獻(xiàn)兩者相關(guān)只是因?yàn)槭┮墨I(xiàn)引用了參考文獻(xiàn)中的部分內(nèi)容、觀點(diǎn)或數(shù)據(jù),即參考文獻(xiàn)被引用的內(nèi)容和施引文獻(xiàn)中引用的內(nèi)容具有相似性。一般來(lái)說(shuō),直接引用的內(nèi)容相似性高,間接引用或轉(zhuǎn)引的內(nèi)容相似性略低。因此本文認(rèn)為,如施引文獻(xiàn)中引用的文字內(nèi)容與參考文獻(xiàn)中的某段表述、數(shù)據(jù)、觀點(diǎn)具有相似性,則稱(chēng)為引文有效,否則則稱(chēng)為引文無(wú)效。對(duì)引文有效性的識(shí)別可用參考文獻(xiàn)與施引文獻(xiàn)引用的文本內(nèi)容的相似性程度進(jìn)行度量。

        2文本相似度計(jì)算

        一般來(lái)說(shuō),相關(guān)文本的兩個(gè)或多個(gè)變量之間存在以下依存關(guān)系:上下關(guān)系、同義關(guān)系、反義關(guān)系、整體——部分關(guān)系,主體——屬性關(guān)系等,反映出文本變量之間的關(guān)聯(lián)。相似文本的變量之間則一般表現(xiàn)為同義關(guān)系、上下關(guān)系、整體——部分關(guān)系。

        由于應(yīng)用場(chǎng)景以及需要解決問(wèn)題、達(dá)成目標(biāo)的差異性,學(xué)界對(duì)文本相似度尚沒(méi)有統(tǒng)一定義。本文認(rèn)為文本相似度分析是指對(duì)兩個(gè)給定的文本通過(guò)詞匯、語(yǔ)句、段落進(jìn)行比較,判定兩者的差異,從而確定文本的相似程度,通常用[0,1]之間的某個(gè)數(shù)值進(jìn)行度量。相似性越強(qiáng),數(shù)值越接近1(意味著比較的文本完全相同);相似性越弱,數(shù)值越接近0(意味著比較的文本完全不同)。Lin D在文獻(xiàn)An Information-theoretic Definition of Similarity中給出了相似度定理[4]:

        Sim(A,B)=logP(common(A,B))logP(desctription(A,B))(1)

        common(A,B)是比較文本A、B的共性部分,description(A,B)是比較文本A、B的全部信息。此定義由于其通用性,是在多種應(yīng)用領(lǐng)域下采用較多的概念。

        國(guó)內(nèi)外研究人員針對(duì)不同應(yīng)用提出了諸多相似度計(jì)算方法并已成功應(yīng)用。目前已有的可用于文本相似度計(jì)算的有向量空間模型(Vector Space Model)、布爾模型、隱含語(yǔ)義標(biāo)引(Latent Semantic Index)模型、P-normal模型、字符串匹配模型、概率模型等文本表示模型。這些模型運(yùn)用數(shù)學(xué)的語(yǔ)言和工具對(duì)文本信息及其處理過(guò)程加以翻譯和抽象,解決文本相似度計(jì)算中的文本表示、特征加權(quán)和相似度計(jì)算問(wèn)題。其中Salton等于20世紀(jì)60年代末提出的向量空間模型VSM(Vector Space Model)是目前最有效的文本結(jié)構(gòu)化表示模型,已經(jīng)被廣泛用于文本檢索、自動(dòng)文摘、自動(dòng)分類(lèi)、機(jī)器翻譯、輿情控制等領(lǐng)域。VSM認(rèn)為詞與詞之間是獨(dú)立的,文本表達(dá)的意義與詞語(yǔ)在文中出現(xiàn)的順序與位置沒(méi)有關(guān)聯(lián),僅與詞語(yǔ)出現(xiàn)的次數(shù)有關(guān)。如參考文獻(xiàn)A可以看成是由詞語(yǔ)(a1,a2,a3,…,an)構(gòu)成,每一個(gè)詞語(yǔ)ai的權(quán)重Wi就是n維坐標(biāo)所對(duì)應(yīng)的坐標(biāo)值,由此參考文獻(xiàn)A可以用一個(gè)n維的文本向量空間表示。對(duì)于解決文本的相似度問(wèn)題VSM有很強(qiáng)的可計(jì)算性和可操作性,是本文進(jìn)行相似度計(jì)算的主要方法[5]。

        3期刊引文有效性識(shí)別方法與實(shí)現(xiàn)

        對(duì)引文有效性的識(shí)別即對(duì)引用內(nèi)容與參考文獻(xiàn)內(nèi)容相似度的計(jì)算。本文的引文有效性識(shí)別方法主要分成3步:文本表示,特征詞權(quán)重確定,相似度計(jì)算。

        31參考文獻(xiàn)的文本表示

        文本表示是指從參考文獻(xiàn)和引用內(nèi)容中抽取出能體現(xiàn)參考文獻(xiàn)主要內(nèi)容的特征詞,以形成參考文獻(xiàn)的向量表示,包括參考文獻(xiàn)和施引文獻(xiàn)引用的內(nèi)容部分,主要解決抽取什么特征向量和抽取多少特征項(xiàng)量的問(wèn)題。

        期刊論文是人類(lèi)自然語(yǔ)言的文本表示,屬于非結(jié)構(gòu)化信息。為了便于計(jì)算機(jī)處理論文信息,需要將論文進(jìn)行預(yù)處理,即將非結(jié)構(gòu)化的論文信息轉(zhuǎn)化為能夠被計(jì)算機(jī)直接處理的結(jié)構(gòu)化文本信息,通常有分詞和去停用詞兩個(gè)步驟。

        分詞就是將待比較的論文切割成單個(gè)的詞,并根據(jù)詞性進(jìn)行標(biāo)注。目前常用的漢語(yǔ)分詞系統(tǒng)有:ICTCLAS分詞系統(tǒng)、HTTPCWS、SCWS——簡(jiǎn)易中文分詞系統(tǒng)、PhpanAlysis、盤(pán)古分詞、MMSEG4J無(wú)組件分詞系統(tǒng)以及中國(guó)科學(xué)院的NLPIR中文分詞系統(tǒng)。NLPIR中文分詞系統(tǒng)可以基于信息交叉熵自動(dòng)發(fā)現(xiàn)新特征語(yǔ)言,從較長(zhǎng)的文本內(nèi)容中自適應(yīng)測(cè)試語(yǔ)料的語(yǔ)言概率分布模型,實(shí)現(xiàn)自適應(yīng)分詞,在本文的期刊引文識(shí)別方法中分詞效果最好,是本文主要使用的分詞方法[6]。

        文本預(yù)處理的第二步是去停用詞。所謂停用詞是指出現(xiàn)頻率較高但實(shí)際意義不大的詞,包括連詞、嘆詞、語(yǔ)氣詞等沒(méi)有實(shí)際意義的功能詞以及地名、人名等詞匯詞。去除、過(guò)濾停用詞可以有效降低文本相似度計(jì)算的誤差,提高計(jì)算效率并節(jié)省存儲(chǔ)空間。目前使用的停用詞都是根據(jù)人類(lèi)經(jīng)驗(yàn)非自動(dòng)化生成的,由此匯集而成停用詞表,目前尚沒(méi)有普遍應(yīng)用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫(kù)”、“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫(kù)”、百度停用詞表“等。

        考慮到引文有效性識(shí)別過(guò)程中涉及的參考文獻(xiàn)詞匯量比較大,如果將文本預(yù)處理之后的每個(gè)詞語(yǔ)都作為特征項(xiàng),必然出現(xiàn)維度非常高的情形。為了提高計(jì)算計(jì)算效率,本文需要對(duì)特征項(xiàng)進(jìn)行降維處理。傳統(tǒng)VSM無(wú)法回避同義詞、多義詞現(xiàn)象,需要對(duì)這些原始詞進(jìn)行“合成”,使用SVD對(duì)原始的文本向量組成的矩陣分解以實(shí)現(xiàn)將原來(lái)的向量轉(zhuǎn)換成新的向量,從而消除詞的同義性和多義性對(duì)表征文本從而導(dǎo)致計(jì)算效果不佳的影響。圖1期刊引文有效性識(shí)別文本表示模塊

        国产情侣自拍在线视频| 亚洲欧美日韩国产综合久| 亚洲国产一区二区三区,| 男女动态91白浆视频| 暖暖 免费 高清 日本 在线| 欧美黑人又粗又硬xxxxx喷水| 精品无码久久久九九九AV| 国产成人自拍视频在线观看网站| 国产精品亚洲二区在线看| 久久人妻少妇嫩草av无码专区| 日韩精品成人一区二区三区| 综合图区亚洲另类偷窥| 熟女一区二区国产精品| 国产精品久久久久9999| 欧美性狂猛xxxxx深喉| 国产精品美女AV免费观看| 国产麻豆国精精品久久毛片| 国产精品成人无码久久久久久| 免费99精品国产自在在线| 在线a亚洲视频播放在线观看| 久久夜色精品国产亚洲av老牛| 亚洲男人天堂一区二区| 日本人与黑人做爰视频网站| 无码毛片高潮一级一免费| 国产精品天堂在线观看| 中文字幕人妻丝袜成熟乱| 色婷婷久久综合中文久久蜜桃av | 伊人久久大香线蕉免费视频| 一区二区三区在线蜜桃| 音影先锋中文字幕在线| 2021久久精品国产99国产精品| 亚洲偷自拍另类图片二区| 熟女不卡精品久久av| 风韵少妇性饥渴推油按摩视频| 欧美粗大无套gay| 国产欧美日本亚洲精品一5区| 亚洲精品在线视频一区二区| 亚洲国产成人久久综合| 欧美一级视频精品观看| 亚洲一区二区三区精品久久| 国产高清在线观看av片|