亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主題詞法和自然語言法探測(cè)文獻(xiàn)主題新穎性對(duì)比分析

2019-06-13 08:02:18

中華醫(yī)學(xué)圖書情報(bào)雜志 2019年1期

文本新穎性探測(cè)是指按時(shí)間順序在給定的一些相關(guān)文獻(xiàn)集中，比較新到相關(guān)文本與已有文本之間內(nèi)容的冗余度，確定新到文本內(nèi)容是否新穎[1]。對(duì)于科技文獻(xiàn)質(zhì)量的創(chuàng)新性、新穎性的分析評(píng)價(jià)，目前沒有統(tǒng)一的標(biāo)準(zhǔn)，可以通過以下方法進(jìn)行。一是基于文獻(xiàn)計(jì)量學(xué)的引文分析法。該方法利用科學(xué)文獻(xiàn)間的引用關(guān)系反映科技成果的學(xué)術(shù)價(jià)值以及學(xué)術(shù)地位，說明科學(xué)知識(shí)和情報(bào)內(nèi)容的繼承和利用，評(píng)價(jià)推薦出新穎性文獻(xiàn)[2]，其最大缺點(diǎn)是時(shí)間的滯后性。二是基于向量空間模型的相似度計(jì)算方法。應(yīng)用最廣泛的是向量夾角余弦值。Salton[3]提出TFIDF算法進(jìn)行權(quán)重賦值，該方法體現(xiàn)的主要思想是當(dāng)一個(gè)詞語在特定文獻(xiàn)中出現(xiàn)的頻率越高，說明它在區(qū)分文獻(xiàn)內(nèi)容屬性方面的能力越強(qiáng)；一個(gè)詞語在特定文獻(xiàn)中出現(xiàn)的范圍越廣，說明它在區(qū)分文獻(xiàn)內(nèi)容屬性方面的能力越低。當(dāng)前文本和以前文本之間的相似度越大，則新穎性越小[1]。三是基于關(guān)鍵詞詞頻分析的方法。關(guān)鍵詞是作者根據(jù)文章的主要內(nèi)容、理論、方法、觀點(diǎn)，通過概括、總結(jié)提煉出來用于揭示文章主題信息的自然語言，關(guān)鍵詞數(shù)量通常少于自然語言詞和醫(yī)學(xué)主題詞。不同作者因地域、時(shí)代的差異，對(duì)于事物、觀點(diǎn)的稱謂不盡相同。關(guān)鍵詞具有一定主觀性，無法做到表述一致，對(duì)文獻(xiàn)新穎性分析存在不同程度的影響。因此，在文獻(xiàn)新穎性分析之前，應(yīng)對(duì)關(guān)鍵詞進(jìn)行規(guī)范化預(yù)處理，降低同義詞、近義詞、上下位詞對(duì)分析結(jié)果產(chǎn)生的影響。四是基于創(chuàng)新型生物醫(yī)學(xué)文獻(xiàn)學(xué)術(shù)評(píng)價(jià)系統(tǒng)F1000的評(píng)價(jià)方法。F1000是生物醫(yī)學(xué)領(lǐng)域同行評(píng)議的數(shù)據(jù)庫，F(xiàn)1000專家對(duì)世界頂級(jí)的生物、醫(yī)學(xué)雜志最新發(fā)表的文章從創(chuàng)新性、重要性、合理性、方法學(xué)等方面進(jìn)行同行評(píng)定，選取最有價(jià)值文獻(xiàn)給予推薦，幫助生物學(xué)及醫(yī)學(xué)領(lǐng)域的研究人員掌握本學(xué)科領(lǐng)域的最新研究進(jìn)展。同行評(píng)議是專家根據(jù)個(gè)人的態(tài)度對(duì)文獻(xiàn)本身學(xué)術(shù)成就給予的評(píng)價(jià)，主觀性大。五是突發(fā)詞監(jiān)測(cè)算法。根據(jù)詞頻變化率統(tǒng)計(jì)出低頻但具有情報(bào)意義的突發(fā)詞，探測(cè)新興研究熱點(diǎn)和研究趨勢(shì)，適用于某研究領(lǐng)域前沿趨勢(shì)的探測(cè)[4]。

近年來，國(guó)內(nèi)多位學(xué)者進(jìn)行了文獻(xiàn)主題新穎性探測(cè)的相關(guān)研究。如徐爽[4]通過突發(fā)詞監(jiān)測(cè)算法研究了全身炎癥反應(yīng)綜合征治療藥物，根據(jù)詞頻變化率統(tǒng)計(jì)出低頻但具有情報(bào)意義的突發(fā)詞，探測(cè)該領(lǐng)域新興研究熱點(diǎn)；楊建林[5]運(yùn)用基于關(guān)鍵詞對(duì)逆文檔頻率的方法進(jìn)行主題新穎性的度量；陳斯斯[6]應(yīng)用詞重疊法和基于共詞的逆文檔頻率量化法對(duì)比分析探測(cè)評(píng)估醫(yī)學(xué)文獻(xiàn)主題新穎性，得出詞重疊法更優(yōu)的結(jié)論。

有研究通過自然語言詞對(duì)方法(以下簡(jiǎn)稱“自然語言法”)計(jì)算了文檔主題新穎度，探討了文檔主題新穎度與F1000推薦文獻(xiàn)、引用情況分屬于科技論文評(píng)價(jià)的不同維度、不同范疇，不可一概而論[7]。本文在此基礎(chǔ)上提出了基于醫(yī)學(xué)主題詞詞對(duì)法的文獻(xiàn)主題新穎性探測(cè)方法(以下簡(jiǎn)稱“主題詞法”)，運(yùn)用兩種方法對(duì)同一文獻(xiàn)集進(jìn)行文檔主題新穎度的計(jì)算并進(jìn)行比較分析，探討兩種方法計(jì)算文檔主題新穎度結(jié)果的一致性和差異性，以及兩種方法的優(yōu)缺點(diǎn)和與F1000推薦文獻(xiàn)的關(guān)系。

1 研究方法與工具

1.1 研究方法

醫(yī)學(xué)主題詞詞對(duì)逆文檔頻率原則(Inverse Document Frequency of Mesh Pair，MPIDF)，即一對(duì)共現(xiàn)的醫(yī)學(xué)主題詞詞對(duì)在量化某文檔的主題新穎度時(shí)的價(jià)值隨著在該文檔之前發(fā)表的、包含該對(duì)共現(xiàn)醫(yī)學(xué)主題詞詞對(duì)的文檔數(shù)量的增加而降低[5]。

醫(yī)學(xué)主題詞時(shí)間逆文檔頻率是指若t為文檔D中的一個(gè)已標(biāo)引的主題詞，在文檔D之前發(fā)表的所有文檔中包含已標(biāo)引主題詞t的文檔數(shù)為N，則稱N+1為以文檔D為參照的主題詞t的文檔頻率，記為MT-IDF(D，t),稱N+1的倒數(shù)為以文檔D為參照的主題詞t的時(shí)間逆文檔頻率，記為MTIDF(D，t)。

醫(yī)學(xué)主題詞詞對(duì)時(shí)間逆文檔頻率是指若t1、t2為文檔D中共同出現(xiàn)的兩個(gè)已標(biāo)引的醫(yī)學(xué)主題詞，在文檔D之前發(fā)表的所有文檔中同時(shí)包含已標(biāo)引醫(yī)學(xué)主題詞t1、t2的文檔數(shù)為N，則稱N+1為以文檔D為參照的醫(yī)學(xué)主題詞詞對(duì)t1、t2的文檔頻率，記為MPT-IDF(D，t1，t2),稱N+1的倒數(shù)為以文檔D為參照的醫(yī)學(xué)主題詞詞對(duì)t1、t2的時(shí)間逆文檔頻率，記為MPTIDF(D，t1，t2)，得到MPTIDF(D，t1，t2)≥(MPTIDF(D，t1)，MPTIDF(D， t2))。

主題詞法文檔主題新穎度是指文檔D中所有以自身為參照的醫(yī)學(xué)主題詞詞對(duì)的時(shí)間逆文檔頻率的平均值稱為文檔D的主題新穎度，記為NOV(D,M)。計(jì)算公式為：

式中，ti、tj為文檔D中已標(biāo)引的第i和第j個(gè)醫(yī)學(xué)主題詞，顯然NOV(D,M)∈(0，1)。

1.2 研究工具

1.2.1 F1000

F1000是近年來生物醫(yī)學(xué)領(lǐng)域同行評(píng)議的文獻(xiàn)評(píng)價(jià)數(shù)據(jù)庫，每年對(duì)全球文章總數(shù)不足2‰的優(yōu)秀精品醫(yī)學(xué)論文進(jìn)行推薦和點(diǎn)評(píng)，給出F1000得分，依據(jù)學(xué)術(shù)貢獻(xiàn)和科學(xué)價(jià)值挑選出優(yōu)秀論文推薦給全世界的生物學(xué)和醫(yī)學(xué)研究者[8]，幫助生物學(xué)及醫(yī)學(xué)領(lǐng)域的研究人員掌握本學(xué)科領(lǐng)域的最新研究進(jìn)展。研究人員發(fā)表的論文被F1000收錄并獲得推薦，是對(duì)該論文和研究人員的高度認(rèn)可。

1.2.2 MeSH

《醫(yī)學(xué)主題詞表》(Medical Subject Headings，MeSH)由美國(guó)國(guó)立醫(yī)學(xué)圖書館編制而成，主要目的是提供一個(gè)分層組織的術(shù)語，用于MEDLINE/PubMed和其他NLM數(shù)據(jù)庫中生物醫(yī)學(xué)文獻(xiàn)信息的索引和編目以及檢索利用[9-10]。MeSH由主題詞(Descriptors，亦稱“敘詞”)、副主題詞(Qualifiers，亦稱“限定詞”)和增補(bǔ)概念構(gòu)成[9]。副主題詞指主題詞所論述的重點(diǎn)課題的自然范疇或通常發(fā)生的某一方面，對(duì)主題概念起限定作用[9]；副主題詞與主題詞進(jìn)行邏輯組配，專指性更高，可以提高查全率和查準(zhǔn)率，是實(shí)現(xiàn)智能化檢索的重要途徑。

本文選取自然語言法相同文獻(xiàn)集，在同篇共現(xiàn)基礎(chǔ)上計(jì)算主題詞法文檔主題新穎度，提取PubMed中已標(biāo)引的MeSH詞匯代表文章的主要內(nèi)容。該文獻(xiàn)集內(nèi)含401篇文獻(xiàn)(其中F1000推薦文獻(xiàn)33篇)，具有MeSH標(biāo)引的文獻(xiàn)346篇(其中F1000推薦文獻(xiàn)30篇)，從中提取MeSH標(biāo)引詞匯7 021條記錄，組合成詞對(duì)后共計(jì)約8萬條記錄。根據(jù)主題詞法文檔主題新穎度公式計(jì)算出每篇文章的新穎度值，結(jié)合自然語言法新穎度結(jié)果進(jìn)行對(duì)比分析。

2 實(shí)驗(yàn)結(jié)果和結(jié)論

2.1 文檔主題新穎度分區(qū)

文檔主題新穎度值及分區(qū)情況統(tǒng)計(jì)見表1和表2。

表1 兩種方法計(jì)算的文檔主題新穎度值(部分)

注：* 代表F1000推薦文獻(xiàn)

表2 主題詞法和自然語言法文檔主題新穎度值分區(qū)

對(duì)主題詞法和自然語言法獲得的文檔主題新穎度值進(jìn)行Spearman相關(guān)性比較顯示，兩種方法在計(jì)算文檔主題新穎度之間呈正相關(guān)，相關(guān)系數(shù)為0.593，P=0.000，可見主題詞法和自然語言法在計(jì)算文檔主題新穎度方面有相對(duì)等效的價(jià)值。

主題詞法計(jì)算新穎度的范圍為PubMed中已有MeSH標(biāo)引的346篇文獻(xiàn)，未標(biāo)引的55篇文獻(xiàn)主要是因下載文獻(xiàn)過新而尚未進(jìn)行標(biāo)引。主題詞法計(jì)算出的新穎度最高值為1，共有8篇，說明其在區(qū)分最高級(jí)別、最卓越文獻(xiàn)方面不是特別理想；該方法計(jì)算出的最低值為0.439。新穎度值相差0.1分為一個(gè)區(qū)間，計(jì)算結(jié)果可分為7個(gè)區(qū)間，平均新穎度值為0.8423，大于平均新穎度值的文獻(xiàn)有212篇，占統(tǒng)計(jì)文獻(xiàn)總數(shù)的61.27%。

2.2 F1000推薦文獻(xiàn)文檔主題新穎度分區(qū)情況

兩種方法計(jì)算的F1000推薦文獻(xiàn)文檔主題新穎度分區(qū)見表3。用主題詞法計(jì)算該文獻(xiàn)集中MeSH標(biāo)引的364篇文獻(xiàn)中，F(xiàn)1000推薦文獻(xiàn)30篇；用自然語言法計(jì)算該文獻(xiàn)集全部的401篇文獻(xiàn)中，F(xiàn)1000推薦文獻(xiàn)33篇。

表3 主題詞法和自然語言法計(jì)算的F1000推薦文獻(xiàn)文檔主題新穎度分區(qū)

用主題詞法計(jì)算的F1000推薦文獻(xiàn)中的新穎度最高值為1，最低值為0.448，計(jì)算結(jié)果共分為7個(gè)區(qū)間。該方法計(jì)算出的平均新穎度值為0.7592，大于平均新穎度值的文獻(xiàn)有18篇，占統(tǒng)計(jì)文獻(xiàn)總數(shù)的60%，與自然語言法占比等同，說明在識(shí)別高質(zhì)量文章情況下，兩種方法計(jì)算結(jié)果基本一致。

2.3 兩種方法計(jì)算結(jié)果分布的一致性比較

兩種方法計(jì)算結(jié)果分布的一致性是指主題詞法和自然語言法計(jì)算出的文檔主題新穎度值均分布在某區(qū)間的文獻(xiàn)數(shù)占統(tǒng)計(jì)文獻(xiàn)的比例。Meet/min方法是目前被公認(rèn)的一種簡(jiǎn)單有效的評(píng)估協(xié)同程度的方法[11]，運(yùn)用Meet/min方法將兩種方法計(jì)算出的新穎度值分區(qū)在同一區(qū)間內(nèi)的共同文獻(xiàn)數(shù)量可定義一致率的概念，公式如下。結(jié)果見表4和圖1。

表4 主題詞法與自然語言法計(jì)算的新穎度值一致率

從表4可以看出，隨著新穎度值的增加，分布在同一區(qū)間內(nèi)的文獻(xiàn)篇數(shù)也在增加。新穎度值在0.5～0.8之間的一致率呈下降趨勢(shì)，可能由于統(tǒng)計(jì)文獻(xiàn)的樣本數(shù)量較少所致；新穎度值在0.7～1之間的一致率呈上升趨勢(shì)，說明新穎度值越高，主題詞法和自然語言法在計(jì)算文檔主題新穎度方面越能獲得相同的預(yù)測(cè)效果。

圖1是對(duì)346篇主題詞法新穎度值和401篇自然語言法新穎度值做成的散點(diǎn)圖，橫坐標(biāo)為文獻(xiàn)序列號(hào)，縱坐標(biāo)為新穎度值，其中346篇文獻(xiàn)中每個(gè)序列號(hào)分別對(duì)應(yīng)圖中兩個(gè)顏色的點(diǎn)以及它們分布的位置，所對(duì)應(yīng)的兩個(gè)點(diǎn)的距離就是兩種算法新穎度值的差距。

從圖1可以看出，新穎度值越高，兩種顏色點(diǎn)的分布越密集，主題詞法和自然語言法計(jì)算出的文檔主題新穎度值分區(qū)越一致。

2.4 兩種方法計(jì)算結(jié)果分布差異性比較

兩種方法計(jì)算結(jié)果分布差異性是指同一篇文獻(xiàn)經(jīng)主題詞法和自然語言法兩種方法計(jì)算后得到的新穎度值之間的差值。結(jié)果見表5和圖2。

圖1主題詞法和自然語言法新穎度一致性的分布散點(diǎn)圖

表5 主題詞法和自然語言法計(jì)算的新穎度值差異

從表5可以看出，同一篇文獻(xiàn)經(jīng)主題詞法和自然語言法兩種方法計(jì)算得到的新穎度值之差在0～0.1的最多，為257篇，占統(tǒng)計(jì)文獻(xiàn)總數(shù)的74.28%；差值在0.1～0.2的文獻(xiàn)為71篇，占統(tǒng)計(jì)文獻(xiàn)總數(shù)的20.52%；差值在0.2～0.3的文獻(xiàn)為12篇，占統(tǒng)計(jì)文獻(xiàn)總數(shù)的3.47%；差值在0.3～0.4的文獻(xiàn)為4篇，占統(tǒng)計(jì)文獻(xiàn)總數(shù)的1.16%；差值在0.4～0.5的文獻(xiàn)和在0.5～0.6的文獻(xiàn)均為1篇，分別占統(tǒng)計(jì)文獻(xiàn)總數(shù)的0.29%。

說明絕大多數(shù)文獻(xiàn)經(jīng)兩種方法計(jì)算得到的新穎度差值在0.1以下。

圖2 主題詞法和自然語言法新穎度差異

圖2是根據(jù)用兩種方法對(duì)346篇進(jìn)行計(jì)算得到的每篇文獻(xiàn)新穎度差值做成的一個(gè)柱狀圖，橫坐標(biāo)代表文獻(xiàn)序列號(hào)，縱坐標(biāo)代表兩種方法計(jì)算的新穎度差值。從圖2可以看出，同一篇文獻(xiàn)經(jīng)主題詞法和自然語言法計(jì)算出的新穎度值之差在0～0.1之間分布最多，差值在0.1～0.2之間的文獻(xiàn)數(shù)量次之，說明兩種方法在計(jì)算文檔主題新穎度值方面差異不大，在探測(cè)文檔主題新穎度方面具有等同的效果。

2.5 F1000推薦文獻(xiàn)新穎度與其他指標(biāo)比較

兩種方法計(jì)算的F1000推薦文獻(xiàn)文檔主題新穎度值與其他指標(biāo)的比較見表6。

表6 主題詞法和自然語言法計(jì)算的F1000推薦文獻(xiàn)文檔主題新穎度情況及其他指標(biāo)比較(部分)

上述表格各列數(shù)據(jù)經(jīng)過統(tǒng)計(jì)學(xué)方法判斷均沒有統(tǒng)計(jì)學(xué)意義，自然語言法新穎度值、IF值及F1000得分都不存在相關(guān)性，主題詞法新穎度值和F1000得分弱相關(guān)，說明相比自然語言法而言，主題詞法計(jì)算新穎度值與同行評(píng)議結(jié)果趨于一致。

圖3表示兩種方法計(jì)算的文檔主題新穎度值與F1000得分的關(guān)系，橫坐標(biāo)表示F1000得分，縱坐標(biāo)表示新穎度值，中間的橫線代表兩種方法計(jì)算的新穎度中值，兩者距離越相近，說明兩種方法計(jì)算出的新穎度值越靠近。從圖3可以看出，隨著F1000得分的增高，兩種方法計(jì)算的新穎度越相關(guān)。兩種方法計(jì)算得到的新穎度值的高低與文獻(xiàn)所在期刊的IF值并無明顯相關(guān)性。

3 討論

3.1 兩種方法優(yōu)缺點(diǎn)對(duì)比分析

從計(jì)算層次來看，兩種方法均是從文本層出發(fā)進(jìn)行的主題新穎性探測(cè)，不同之處在于主題詞法是在同篇共現(xiàn)基礎(chǔ)上進(jìn)行的計(jì)算，能將整個(gè)文獻(xiàn)集內(nèi)經(jīng)過MeSH標(biāo)引的文獻(xiàn)進(jìn)行計(jì)算獲得新穎度值；自然語言法是在同篇同句共現(xiàn)基礎(chǔ)上進(jìn)行計(jì)算，將提取的自然語言詞匯經(jīng)公式計(jì)算后獲得的新穎度值[7]。

從計(jì)算范圍來看，主題詞法計(jì)算了文獻(xiàn)集內(nèi)經(jīng)MeSH標(biāo)引的346篇文獻(xiàn)，自然語言法計(jì)算了文獻(xiàn)集內(nèi)的全部文獻(xiàn)401篇，計(jì)算范圍比主題詞法廣泛。

相比較而言，主題詞法具有不可替代的自身優(yōu)勢(shì)，它將自然語言轉(zhuǎn)換成規(guī)范化名詞術(shù)語，在揭示文章主要內(nèi)容、表達(dá)主旨含義上更加科學(xué)、準(zhǔn)確，在計(jì)算新穎度值上更加準(zhǔn)確，與同行評(píng)議結(jié)果符合度更高；自然語言法通過MetaMap提取自然語言詞匯，在進(jìn)行計(jì)算時(shí)可以不受時(shí)間的限制而將整個(gè)文獻(xiàn)集內(nèi)的全部文獻(xiàn)進(jìn)行計(jì)算得到不同的新穎度值，在一定程度上代表主旨含義，在揭示新興主題概念方面具有更高的價(jià)值[7]。

圖3 兩種方法新穎度值與F1000得分關(guān)系

雖然MeSH每年都在更新，但仍然滯后于科學(xué)技術(shù)的發(fā)展。新的科技詞匯要在出現(xiàn)一段時(shí)間后才會(huì)經(jīng)過專家學(xué)者推薦核準(zhǔn)為正式的主題詞用于文章標(biāo)引，這在體現(xiàn)最新科技研究成果方面會(huì)受到制約。同時(shí)最新發(fā)表文獻(xiàn)因尚未進(jìn)行MeSH標(biāo)引，在進(jìn)行計(jì)算時(shí)有一定限制，早年發(fā)表的文獻(xiàn)也存在缺失標(biāo)引或者未標(biāo)引的情況。而自然語言法因受MetaMap自由度影響，隨其詞匯源不斷更新，MetaMap提取新興科技詞匯的效果好則結(jié)果好，反之亦然[7]。

本文兩種文檔主題新穎度的計(jì)算方法，對(duì)評(píng)價(jià)量化文獻(xiàn)主題新穎性提出了全新指標(biāo)，兩者在一定程度上有著等效價(jià)值，隨著計(jì)算的文檔主題新穎度值的增高，兩種方法計(jì)算出的新穎度值越相近。

3.2 論文不同層面評(píng)價(jià)指標(biāo)分析

本文兩種方法計(jì)算的文檔主題新穎度是從文本層面出發(fā)而進(jìn)行的客觀量化分析評(píng)價(jià)，分別從文中提取詞對(duì)進(jìn)行計(jì)算，通過發(fā)現(xiàn)對(duì)比之前文獻(xiàn)集中尚未出現(xiàn)的詞對(duì)情況來證明文獻(xiàn)的新穎程度，對(duì)文獻(xiàn)集中每一篇文章給出評(píng)價(jià)，相對(duì)更加客觀。同行評(píng)議指標(biāo)F1000評(píng)分相對(duì)簡(jiǎn)單，僅將各位專家評(píng)分累積求和即可獲得F1000得分。F1000是基于同行評(píng)議的論文評(píng)價(jià)，難以保證評(píng)價(jià)的絕對(duì)客觀性，同時(shí)也存在運(yùn)用范圍不夠廣泛、全面的情況。

本文發(fā)現(xiàn)F1000得分與主題詞法新穎度值存在弱相關(guān)，表明該方法通過提取代表主旨含義的醫(yī)學(xué)主題詞詞對(duì)進(jìn)行計(jì)算后得到的新穎度值與專家同行評(píng)議在一定程度上一致，也就是從論文評(píng)價(jià)的不同層面給出相對(duì)一致的結(jié)論。這也與劉春麗發(fā)現(xiàn)不同類型計(jì)量指標(biāo)對(duì)同一組論文影響力的評(píng)估具有一致性的結(jié)論相符[12]。

3.3 文獻(xiàn)提取和計(jì)算過程中的不足

PubMed數(shù)據(jù)庫中記錄的錯(cuò)誤對(duì)于結(jié)果有一定的影響，如自然語言法提取文獻(xiàn)已經(jīng)限定PT為非Review，而主題詞法在提取已標(biāo)引MeSH詞匯時(shí)有Review的出現(xiàn)，PubMed數(shù)據(jù)庫在錄入方面存在不一致情況，會(huì)對(duì)結(jié)果產(chǎn)生一定影響。

主題詞法在進(jìn)行計(jì)算時(shí)，選取只保留“主題詞”“主題詞/副主題詞”一致即可，把加權(quán)符號(hào)去除，不考慮加權(quán)標(biāo)引。因考慮到文獻(xiàn)集內(nèi)不同文章進(jìn)行加權(quán)標(biāo)引一致情況較少，所以只要文章出現(xiàn)同樣的標(biāo)引詞即認(rèn)為一致，可能會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響。

4 結(jié)語

主題詞法和自然語言法可從文本層面計(jì)算文檔主題新穎度，兩者各有優(yōu)勢(shì)，自然語言法在計(jì)算范圍和最新發(fā)表的文獻(xiàn)推薦方面要略優(yōu)于主題詞法，主題詞法在揭示文章主旨含義方面優(yōu)于自然語言法。

根據(jù)相關(guān)性比較，主題詞法和自然語言法在計(jì)算文檔主題新穎度方面具有相對(duì)等效的價(jià)值。新穎度值越高，兩種方法計(jì)算出的文檔新穎度值分區(qū)越一致。

主題詞法文檔主題新穎度與F1000得分呈弱相關(guān)，說明主題詞法的文檔主題新穎度準(zhǔn)確性更接近于專家同行評(píng)議。