陸鳳琳 袁 潤(rùn),2
(1.江蘇大學(xué)科技信息研究所 鎮(zhèn)江 212013;2.江蘇大學(xué)圖書館 鎮(zhèn)江 212013)
隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)等科學(xué)技術(shù)的迅速發(fā)展,大數(shù)據(jù)時(shí)代來(lái)臨,文獻(xiàn)數(shù)量增長(zhǎng)迅猛,以中國(guó)知網(wǎng)為例,截止2020年,中外文文獻(xiàn)量已逾3億篇[1]。海量的文獻(xiàn)信息為科學(xué)研究和社會(huì)實(shí)踐提供了依據(jù),但同時(shí)也為文獻(xiàn)檢索帶來(lái)了挑戰(zhàn)。
題名、關(guān)鍵詞、摘要是學(xué)術(shù)文獻(xiàn)傳播的重要形式,能夠準(zhǔn)確揭示論文主題,也是文獻(xiàn)檢索的重要依據(jù),俗稱文獻(xiàn)檢索的“三把斧”[2]。題名應(yīng)該是以最恰當(dāng)、最簡(jiǎn)明的詞語(yǔ)反映論文最重要的特定內(nèi)容的邏輯組合[3],準(zhǔn)確的題名既能充分反映論文的研究范圍和研究深度,也能高度概括并準(zhǔn)確揭示論文的核心內(nèi)容和重要論點(diǎn)[4]。關(guān)鍵詞是為了著錄和標(biāo)引的需要從論文中選取出來(lái)用以表示文獻(xiàn)主題的單詞或術(shù)語(yǔ)[3],它較為規(guī)范,遵循專業(yè)性原則,能全面、準(zhǔn)確地反映了論文主題[5]。摘要是科技文獻(xiàn)不可或缺的一個(gè)重要部分,它是以提供文獻(xiàn)內(nèi)容梗概為目的,不加評(píng)論和補(bǔ)充解釋,簡(jiǎn)單明確地表述文獻(xiàn)重要內(nèi)容的短文[6],是文獻(xiàn)主題的高度濃縮[7]。題名、關(guān)鍵詞和摘要應(yīng)該為文獻(xiàn)檢索與文獻(xiàn)傳播服務(wù),三者既存在共性,也存在一定的差異性。摘要作為論文內(nèi)容的高度濃縮,相較于題名、關(guān)鍵詞,能夠更全面地揭示文獻(xiàn)內(nèi)容。題名、關(guān)鍵詞應(yīng)以精煉的短語(yǔ)或術(shù)語(yǔ)反映論文主題,使讀者對(duì)論文內(nèi)容有一個(gè)大概了解[8]。摘要、題名、關(guān)鍵詞因其作用不同,各具特點(diǎn),在表達(dá)上應(yīng)各有側(cè)重。
但實(shí)際上,科技論文存在關(guān)鍵詞直接選自題名,導(dǎo)致題名與關(guān)鍵詞過(guò)于一致,不能充分展示文獻(xiàn)特色[2]的問(wèn)題。更有甚者,為了追求“新”“奇”“特”,吸引讀者眼球,存在題名或關(guān)鍵詞與文獻(xiàn)內(nèi)容無(wú)關(guān),或者與摘要差異過(guò)大等問(wèn)題。這些問(wèn)題不僅會(huì)影響文獻(xiàn)檢索的結(jié)果,也會(huì)影響文獻(xiàn)傳播的效果。因此,探索題名、關(guān)鍵詞、摘要的差異性具有較強(qiáng)的現(xiàn)實(shí)意義。
本文通過(guò)實(shí)驗(yàn)研究,提出了“差異度”定量測(cè)度指標(biāo),計(jì)算了13種學(xué)術(shù)期刊近10年以來(lái)刊載論文的題名、關(guān)鍵詞、摘要的差異度,探索了差異度的分布特征,可為學(xué)術(shù)論文的撰寫、編輯和檢索提供參考。
本研究主要通過(guò)定量測(cè)度指標(biāo),研究期刊論文題名、關(guān)鍵詞與摘要的差異。其中,題名、關(guān)鍵詞與摘要的差異性定量測(cè)度的指標(biāo)建立在文本相似度計(jì)算方法的基礎(chǔ)上,因此,本文的重點(diǎn)集中在題名、關(guān)鍵詞與摘要的差異性問(wèn)題及文本相似度計(jì)算方法研究上。
目前,已有學(xué)者關(guān)注到題名與關(guān)鍵詞之間的差異問(wèn)題并開展了相關(guān)研究,如徐鴻飛等[9]、張紫玄等[10]分別對(duì)醫(yī)學(xué)領(lǐng)域、農(nóng)產(chǎn)品品牌評(píng)價(jià)領(lǐng)域的論文題名與關(guān)鍵詞的差異性進(jìn)行比較分析;陳紅琳等[8]、王婧等[11]分別提出定量測(cè)度題名和關(guān)鍵詞差異性的指標(biāo),并基于各自的指標(biāo)對(duì)圖情類期刊論文、十余年期刊論文的一期ESI數(shù)據(jù)的題名與關(guān)鍵詞的差異進(jìn)行分析;Hunt C Aetal[12]以頂級(jí)旅游期刊為例,對(duì)文獻(xiàn)題名和關(guān)鍵詞之間的差異進(jìn)行可視化分析,但并未得出具體結(jié)論;Yuret T[13]提出并研究了題名與關(guān)鍵詞對(duì)檢索結(jié)果影響的差異。如上所述,題名與關(guān)鍵詞之間差異問(wèn)題的研究數(shù)量較多,但這些研究存在主觀性較強(qiáng)[9]、數(shù)據(jù)局限[8]的問(wèn)題,題名與關(guān)鍵詞差異性問(wèn)題仍有很大的研究空間。除了題名與關(guān)鍵詞間的差異,摘要與題名、關(guān)鍵詞的差異鮮有學(xué)者關(guān)注,即使有學(xué)者關(guān)注該問(wèn)題,如T Kim[14]研究了題名、摘要作為關(guān)鍵詞時(shí)的表達(dá)差異,但也未得出一定的結(jié)論。
相似度算法與差異度定量測(cè)度指標(biāo)息息相關(guān),陳紅琳等[8]、王婧等[11]提出的定量測(cè)度題名和關(guān)鍵詞差異性的指標(biāo)以文本相似度為基礎(chǔ)。本研究提出的差異度定量測(cè)度也建立在文本相似度的基礎(chǔ)上,因此,有必要對(duì)文本相似度算法進(jìn)行綜述。文本相似度計(jì)算是指通過(guò)一定的策略比較兩個(gè)或多個(gè)實(shí)體(包括詞語(yǔ)、短文本、文檔)之間的相似程度,得到一個(gè)具體量化的相似度數(shù)值[15]。文本相似度計(jì)算方法有基于字符串的方法、基于語(yǔ)料庫(kù)的方法、基于知識(shí)庫(kù)的方法和混合方法四類[16]?;谧址姆椒ㄖ苯俞槍?duì)原始文本,作用于字符串序列或字符組合,以兩個(gè)文本的字符匹配程度或距離作為相似度衡量標(biāo)準(zhǔn)[15];基于語(yǔ)料庫(kù)的方法為基于詞袋模型、神經(jīng)網(wǎng)絡(luò)和搜索引擎等方法從語(yǔ)料庫(kù)中獲取信息計(jì)算文本相似度,考慮了語(yǔ)義的重要性;基于知識(shí)庫(kù)的方法是指利用具有規(guī)范組織體系的知識(shí)庫(kù)計(jì)算文本相似度,大多利用頁(yè)面鏈接或?qū)哟谓Y(jié)構(gòu),能較好地反映出詞條的語(yǔ)義關(guān)系;混合方法指的是綜合運(yùn)用兩種或兩種以上上述方法計(jì)算文本相似度,一定程度上提高了文本相似度計(jì)算效果。上述四種文本相似度算法已較為成熟,被廣泛應(yīng)用于信息檢索、自然語(yǔ)言處理等領(lǐng)域[15],能夠滿足本研究對(duì)題名、關(guān)鍵詞與摘要的差異度計(jì)算需求。
“主題”這一概念的外延較為寬泛。題名、關(guān)鍵詞、摘要皆可以視為論文的“主題”,三者既有區(qū)別,也有關(guān)聯(lián),兩兩比較,既有相似性,也存在差異,它們結(jié)合起來(lái)應(yīng)能最大限度地表達(dá)“主題”。為了定量研究,本文定義學(xué)術(shù)期刊論文的題名、關(guān)鍵詞、摘要的差異度為題名與摘要的差異度(d1)、關(guān)鍵詞與摘要的差異度(d2)、關(guān)鍵詞與題名的差異度(d3)三者的幾何平均值,如公式(1)所示。
差異即差別、不相同,差異度是量化不同對(duì)象存在差別的程度,是比較的結(jié)果。一般而言,學(xué)術(shù)論文的題名、關(guān)鍵詞、摘要應(yīng)從不同的角度,以不同的形式揭示文獻(xiàn)主題,將其兩兩比較,必定存在一定的差異。差異度越大,說(shuō)明彼此越不相似,三者組合所蘊(yùn)含的信息量就越大;反之,差異度越小,說(shuō)明三者越趨于一致,三者組合所蘊(yùn)含的信息量就越小。
由于同一對(duì)象的差異度與相似度的值域互為補(bǔ)集,因此可以用相似度表達(dá)差異度。題名、關(guān)鍵詞、摘要的比較屬于文本比較。文本比較有多種方法,本文研究對(duì)象是學(xué)術(shù)期刊論文的題錄信息,從語(yǔ)言表達(dá)一致性角度來(lái)看,可以采用“字面”相似性算法計(jì)算題名、關(guān)鍵詞、摘要三者之間兩兩比較的相似度。所謂字面相似性,其本質(zhì)就是字符串的比較,較為常用的算法有“字符匹配”、杰卡德相似度和余弦相似度。杰卡德相似度體現(xiàn)集合思想,以兩個(gè)集合的交集與并集中包含的元素個(gè)數(shù)之比表示兩個(gè)集合間的相似度。余弦相似度體現(xiàn)向量思想,通過(guò)計(jì)算兩個(gè)向量的夾角余弦值來(lái)表示兩者的相似度。
字符匹配算法是將比較對(duì)象視為由1~m個(gè)漢字或詞組組成的字符串,用ni表示第i個(gè)詞組的字長(zhǎng),用ni’表示與第i個(gè)詞組匹配的漢字個(gè)數(shù),差異度的定義如公式(2)所示[11]。
杰卡德相似度算法是利用分詞技術(shù)將題名、關(guān)鍵詞和摘要拆分成詞組集合,若待比較的兩個(gè)集合記為A和B,則其差異度的定義如公式(3)所示。
余弦相似度算法也是利用分詞技術(shù)將題名、關(guān)鍵詞和摘要拆分成詞組向量,若待比較的兩個(gè)向量記為A和B,則其差異度的定義如公式(4)所示。
三種算法的計(jì)算結(jié)果差別較大。字符匹配算法結(jié)果偏小,杰卡德相似度算法結(jié)果偏大,其結(jié)果分布皆不均勻。余弦相似度算法的結(jié)果適中,且基本呈現(xiàn)正態(tài)分布。本文對(duì)此開展了探索性實(shí)驗(yàn)研究。
本文采用字符匹配、杰卡德相似度、余弦相似度三種不同算法,分別計(jì)算了學(xué)術(shù)期刊論文的題名、關(guān)鍵詞、摘要三者之間兩兩比較的差異度。字符匹配算法精確到單個(gè)漢字,其它兩種算法精確到詞組,這些詞組由jiebaR分詞所得。
本文在RStudio平臺(tái)(x86-64-pc-linux-gnu,R version 3.6.3)上開展實(shí)驗(yàn)研究,實(shí)驗(yàn)過(guò)程分為數(shù)據(jù)采集、導(dǎo)入、預(yù)處理、計(jì)算、分析等步驟。
步驟1:下載期刊題錄數(shù)據(jù)。從CNKI平臺(tái)選擇并下載了13個(gè)學(xué)科的13種期刊近10年以來(lái)的題錄數(shù)據(jù),文獻(xiàn)導(dǎo)出格式選擇“自定義”,“全選”所有字段,導(dǎo)出到Excel保存。
步驟2:在RStudio環(huán)境下讀取題錄數(shù)據(jù)。當(dāng)Excel文件較多時(shí),可以先用list.files()函數(shù)讀取文件名,再循環(huán)讀取數(shù)據(jù),結(jié)果保存為數(shù)據(jù)框。
步驟3:數(shù)據(jù)預(yù)處理。刪除無(wú)題名、無(wú)作者、無(wú)關(guān)鍵詞、無(wú)摘要等字段的記錄,剔除英文文獻(xiàn),去除重復(fù)記錄等預(yù)處理,保留題名(TI)、作者(AU)、關(guān)鍵詞(KW)、摘要(SU)、出版年(PY)、刊名(JN)等字段信息,最后得到25 566條記錄。用xtabs(~JN+PY, data=mydata)函數(shù)創(chuàng)建二維列聯(lián)表,結(jié)果如表1所示。
表1 13個(gè)學(xué)科的期刊發(fā)文數(shù)(《學(xué)位授予和人才培養(yǎng)學(xué)科目錄》[17])
步驟4:計(jì)算每條題錄的題名長(zhǎng)度、關(guān)鍵詞個(gè)數(shù)和摘要長(zhǎng)度。用stringr包中的str-split()函數(shù),拆分字符串,統(tǒng)計(jì)其長(zhǎng)度,結(jié)果以新的變量TL、KN、SL保存,按照刊名分類統(tǒng)計(jì),其平均值如表2所示。
表2 13種期刊題名、關(guān)鍵詞與摘要的長(zhǎng)度統(tǒng)計(jì)指標(biāo)
步驟5:字符匹配算法的差異度計(jì)算。該算法無(wú)需分詞處理,比較對(duì)象皆視為字符串。題名與摘要比較時(shí),先將題名拆分成“字”,若這些“字”在摘要中全部出現(xiàn),則其差異度為0,若這些“字”在摘要中全部不出現(xiàn),則其差異度為1,若僅有部分出現(xiàn),則其差異度為未匹配的“字”的個(gè)數(shù)與題名長(zhǎng)度的比值;關(guān)鍵詞與題名、摘要比較時(shí),需要分別將每個(gè)關(guān)鍵詞與題名、摘要比較,然后計(jì)算其平均值。
步驟6:杰卡德相似度算法的差異度計(jì)算。該算法需要用jiebaR分詞處理。題名和關(guān)鍵詞較短,采用分詞引擎的缺省算法,摘要相對(duì)較長(zhǎng),采用關(guān)鍵詞算法,即將摘要轉(zhuǎn)變成10個(gè)關(guān)鍵詞,分詞引擎函數(shù)為worker(type="keywords",topn=10)。為了提高計(jì)算精度,本文考慮了詞頻因素,將題名、關(guān)鍵詞和摘要統(tǒng)一轉(zhuǎn)變成“詞組+詞頻”格式,如表3所示。如此,可以通過(guò)自編函數(shù)計(jì)算題名、關(guān)鍵詞和摘要兩兩比較的差異度。
表3 “詞組+詞頻”格式
步驟7:余弦相似度算法的差異度計(jì)算。與步驟6類似,用公式4計(jì)算題名、關(guān)鍵詞和摘要兩兩比較的差異度。
步驟8:結(jié)果分析。按照期刊分類統(tǒng)計(jì)的三種算法的計(jì)算結(jié)果均值如表4所示。字符匹配算法的差異度偏小,杰卡德相似度算法的差異度偏大,余弦相似度算法的差異度適中。
表4 三種算法的結(jié)果比較
通過(guò)上述計(jì)算得到了關(guān)于題名、關(guān)鍵詞和摘要的四組數(shù)據(jù)。題名長(zhǎng)度、關(guān)鍵詞個(gè)數(shù)、摘要長(zhǎng)度反映了學(xué)術(shù)論文的基本特征,即學(xué)術(shù)論文題名一般用20個(gè)左右漢字表示,選用3~5個(gè)關(guān)鍵詞,摘要長(zhǎng)度一般為300個(gè)漢字左右。本文重點(diǎn)是探索三者之間的差異情況,其兩兩比較可以形成三種組合(TS, KS, KT),每種組合又分三種算法來(lái)計(jì)算其差異度。
以題名-摘要差異度(TS)為橫坐標(biāo),關(guān)鍵詞-摘要差異度為縱坐標(biāo),將三種算法結(jié)果繪制成散點(diǎn)圖,如圖1所示。圖1(a)是字符匹配算法差異度分布,圖1(b)是余弦相似度算法差異度分布,圖1(c)是杰卡德相似度算法差異度分布。從圖1可見,基于字符匹配算法差異度偏小,杰卡德相似度算法差異度偏大,余弦相似度算法差異度值較為適中。
圖1 三種算法結(jié)果分布
三種算法(chm, jac, cos)分別計(jì)算題名(T)、關(guān)鍵詞(K)、摘要(S)的兩兩比較結(jié)果共有9種組合,其結(jié)果分布如圖2所示。
圖2 三種算法的結(jié)果分布
字符匹配算法存在大量的0差異度情況,分布基本無(wú)規(guī)律,杰卡德相似度算法的結(jié)果呈現(xiàn)偏態(tài)分布,只有余弦相似度算法的結(jié)果呈現(xiàn)正態(tài)分布。所以,以余弦相似度算法分別計(jì)算題名-摘要的差異度(cosTS)、關(guān)鍵詞-摘要的差異度(cosKS)和關(guān)鍵詞-題名的差異度(cosKT),再計(jì)算三者的幾何平均值,并以此作為題名、關(guān)鍵詞和摘要的差異度(cosDD)。
根據(jù)三種算法的結(jié)果分布情況,本文采用余弦相似度算法計(jì)算了13種期刊10年以來(lái)的題錄數(shù)據(jù),得到題名、關(guān)鍵詞、摘要在揭示學(xué)術(shù)期刊論文主題上差異度的平均值如表5所示。實(shí)驗(yàn)結(jié)果表明,題名、關(guān)鍵詞、摘要三者兩兩比較的差異度的幾何平均值具有較好的分布特征和區(qū)分度,可以作為題名、關(guān)鍵詞、摘要的差異度指標(biāo)。
表5 題名、關(guān)鍵詞、摘要的差異度(2010-2019)
為進(jìn)一步分析差異度分布特征,根據(jù)公式(1)分別計(jì)算了25 566篇學(xué)術(shù)期刊論文的題名、關(guān)鍵詞、摘要的差異度,再根據(jù)題錄數(shù)據(jù)的刊名(JN)和出版年分面,繪制的差異度分布密度圖,如圖3所示。由圖3可見,同一期刊在不同年度的差異度分布(按列)以及同一年度不同期刊的差異度分布(按行)皆有所變化,且并無(wú)顯著特征,表明題名、關(guān)鍵詞、摘要在揭示論文主題上的差異度具有隨機(jī)性,這與現(xiàn)實(shí)情況較為吻合。
圖3 差異度分布密度圖
由表2可得,13種期刊的論文題名長(zhǎng)度均值約在16-25間,摘要長(zhǎng)度均值約在146-656間,關(guān)鍵詞個(gè)數(shù)均值約在3-5間?!吨袊?guó)學(xué)術(shù)期刊(光盤版)檢索與評(píng)價(jià)數(shù)據(jù)規(guī)范》對(duì)題名、摘要長(zhǎng)度及關(guān)鍵詞個(gè)數(shù)做出了規(guī)定,其對(duì)題名的規(guī)定為中文題名字?jǐn)?shù)不超過(guò)25字;對(duì)摘要的規(guī)定為字?jǐn)?shù)在300-600之間;對(duì)關(guān)鍵詞的規(guī)定是個(gè)數(shù)在3-8之間。表2中的數(shù)據(jù)統(tǒng)計(jì)結(jié)果顯示,13種期刊的論文題名、關(guān)鍵詞長(zhǎng)度均值均符合相關(guān)規(guī)范,雖然個(gè)別期刊存在摘要長(zhǎng)度均值不規(guī)范的情況,但大部分期刊的摘要長(zhǎng)度均值仍是符合要求的。這說(shuō)明,目前大部分期刊論文的題名、摘要、關(guān)鍵詞的長(zhǎng)度是符合規(guī)范的。
本文基于字符匹配算法、杰卡德相似度及余弦相似度算法對(duì)25 566篇論文的題名、關(guān)鍵詞與摘要的差異度進(jìn)行了計(jì)算,得出余弦相似度算法差異度值較為適中,因此以基于余弦相似度算法算出的差異度作為題名、關(guān)鍵詞和摘要的差異度。如圖2所示,題名-摘要的差異度(cosTS)、關(guān)鍵詞-摘要的差異度(cosKS)均呈現(xiàn)中間多、兩頭少的狀態(tài),差異度頻數(shù)最多的值在0.5左右,這說(shuō)明大部分論文題名與摘要、關(guān)鍵詞與摘要存在一定的差異;且這兩者差異度為0或?yàn)?的情況幾乎不存在,這說(shuō)明這些論文的題名、關(guān)鍵詞既不完全來(lái)自于摘要,與摘要間又不存在太過(guò)顯著的差異,這得益于近年來(lái)多數(shù)期刊嚴(yán)格要求論文作者在投稿時(shí)提供完整的題錄信息的做法,CNKI平臺(tái)因關(guān)鍵詞缺失而需從論文摘要中抽取關(guān)鍵詞的情況較少,維普、萬(wàn)方等其他平臺(tái)也是如此。而關(guān)鍵詞-題名的差異度(cosKT)呈現(xiàn)中間多、兩頭多的趨勢(shì),這說(shuō)明大部分論文題名與關(guān)鍵詞間存在一定的差異,但部分論文存在關(guān)鍵詞全部來(lái)自題名或題名、關(guān)鍵詞完全不符的情況。經(jīng)分析發(fā)現(xiàn),關(guān)鍵詞完全來(lái)自題名的論文多屬于理學(xué)、工學(xué)、農(nóng)學(xué)及醫(yī)學(xué)這些自然學(xué)科,如表6所示。這可能是由學(xué)科特點(diǎn)決定的,自然學(xué)科中的術(shù)語(yǔ)大多形成了一定的標(biāo)準(zhǔn),這些術(shù)語(yǔ)在題名與關(guān)鍵詞中的表達(dá)一致。但論文關(guān)鍵詞全部來(lái)自題名,也意味著自然學(xué)科的作者缺乏一定的學(xué)術(shù)論文寫作素養(yǎng),將題名與關(guān)鍵詞混為一談,忽視了兩者的區(qū)別。而關(guān)鍵詞與題名完全不符的論文則多屬于人文社科,如經(jīng)濟(jì)學(xué)、藝術(shù)學(xué)及法學(xué)等。關(guān)鍵詞與題名完全不符,可能是由于人文社科的相關(guān)術(shù)語(yǔ)尚未形成統(tǒng)一標(biāo)準(zhǔn),同樣的術(shù)語(yǔ)在關(guān)鍵詞與題名中的表達(dá)不一致,如表6中屬于經(jīng)濟(jì)學(xué)的論文題名中的通脹與關(guān)鍵詞中的通貨膨脹,雖含義一致,但一個(gè)是簡(jiǎn)寫一個(gè)是全稱,這種情況應(yīng)盡量避免。
表6 題名與關(guān)鍵詞間的特殊情況
如圖3所示,不同期刊在不同年份的論文差異度雖有變化,但無(wú)顯著規(guī)律。這說(shuō)明期刊論文的差異度具有隨機(jī)性。這與現(xiàn)實(shí)情況較為吻合,題名、關(guān)鍵詞、摘要的差異度可能受多種因素影響,如學(xué)科總詞匯、作者行文習(xí)慣等,并無(wú)明顯規(guī)律。
結(jié)合表5、圖3可得,各期刊論文的差異度分布規(guī)律較一致,都呈現(xiàn)“中間多,兩頭少”的趨勢(shì),各期刊的論文差異度平均值均在0.4-0.6之間,位于該差異度范圍內(nèi)的論文數(shù)最大,而差異度過(guò)低或過(guò)高的論文數(shù)都較少。這說(shuō)明13個(gè)學(xué)科的期刊論文的題名、關(guān)鍵詞與摘要間既不完全相似,也不存在太大的差異,互補(bǔ)性與差異性并存,因此應(yīng)避免孤立對(duì)待期刊論文的題名、摘要和關(guān)鍵詞,將三者結(jié)合起來(lái),才能夠獲取更多的信息。
本文在定義差異度的基礎(chǔ)上,采用基于余弦相似度算法計(jì)算的題名與摘要的差異度、關(guān)鍵詞與摘要的差異度、關(guān)鍵詞與題名的差異度三者的幾何平均值表征題名、關(guān)鍵詞、摘要差異性,并采用實(shí)驗(yàn)研究與數(shù)據(jù)分析方法,以CNKI平臺(tái)收錄的13種期刊近10年來(lái)的全部論文為例,對(duì)題名、關(guān)鍵詞及摘要間的差異性進(jìn)行了探索性的研究。數(shù)據(jù)分析結(jié)果為余弦相似度算法計(jì)算的差異度大致呈現(xiàn)正態(tài)分布,但存在部分論文的關(guān)鍵詞全部來(lái)自題名或題名與關(guān)鍵詞完全不符的情況,不同期刊在不同年度的差異度分布無(wú)顯著差別。本文的研究無(wú)論是對(duì)論文題錄標(biāo)引、論文檢索,還是差異度計(jì)算方法都有一定的參考價(jià)值。