亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        主題詞法和自然語言法探測(cè)文獻(xiàn)主題新穎性對(duì)比分析

        2019-06-13 08:02:18
        關(guān)鍵詞:度值新穎性標(biāo)引

        文本新穎性探測(cè)是指按時(shí)間順序在給定的一些相關(guān)文獻(xiàn)集中,比較新到相關(guān)文本與已有文本之間內(nèi)容的冗余度,確定新到文本內(nèi)容是否新穎[1]。對(duì)于科技文獻(xiàn)質(zhì)量的創(chuàng)新性、新穎性的分析評(píng)價(jià),目前沒有統(tǒng)一的標(biāo)準(zhǔn),可以通過以下方法進(jìn)行。一是基于文獻(xiàn)計(jì)量學(xué)的引文分析法。該方法利用科學(xué)文獻(xiàn)間的引用關(guān)系反映科技成果的學(xué)術(shù)價(jià)值以及學(xué)術(shù)地位,說明科學(xué)知識(shí)和情報(bào)內(nèi)容的繼承和利用,評(píng)價(jià)推薦出新穎性文獻(xiàn)[2],其最大缺點(diǎn)是時(shí)間的滯后性。二是基于向量空間模型的相似度計(jì)算方法。應(yīng)用最廣泛的是向量夾角余弦值。Salton[3]提出TFIDF算法進(jìn)行權(quán)重賦值,該方法體現(xiàn)的主要思想是當(dāng)一個(gè)詞語在特定文獻(xiàn)中出現(xiàn)的頻率越高,說明它在區(qū)分文獻(xiàn)內(nèi)容屬性方面的能力越強(qiáng);一個(gè)詞語在特定文獻(xiàn)中出現(xiàn)的范圍越廣,說明它在區(qū)分文獻(xiàn)內(nèi)容屬性方面的能力越低。當(dāng)前文本和以前文本之間的相似度越大,則新穎性越小[1]。三是基于關(guān)鍵詞詞頻分析的方法。關(guān)鍵詞是作者根據(jù)文章的主要內(nèi)容、理論、方法、觀點(diǎn),通過概括、總結(jié)提煉出來用于揭示文章主題信息的自然語言,關(guān)鍵詞數(shù)量通常少于自然語言詞和醫(yī)學(xué)主題詞。不同作者因地域、時(shí)代的差異,對(duì)于事物、觀點(diǎn)的稱謂不盡相同。關(guān)鍵詞具有一定主觀性,無法做到表述一致,對(duì)文獻(xiàn)新穎性分析存在不同程度的影響。因此,在文獻(xiàn)新穎性分析之前,應(yīng)對(duì)關(guān)鍵詞進(jìn)行規(guī)范化預(yù)處理,降低同義詞、近義詞、上下位詞對(duì)分析結(jié)果產(chǎn)生的影響。四是基于創(chuàng)新型生物醫(yī)學(xué)文獻(xiàn)學(xué)術(shù)評(píng)價(jià)系統(tǒng)F1000的評(píng)價(jià)方法。F1000是生物醫(yī)學(xué)領(lǐng)域同行評(píng)議的數(shù)據(jù)庫,F(xiàn)1000專家對(duì)世界頂級(jí)的生物、醫(yī)學(xué)雜志最新發(fā)表的文章從創(chuàng)新性、重要性、合理性、方法學(xué)等方面進(jìn)行同行評(píng)定,選取最有價(jià)值文獻(xiàn)給予推薦,幫助生物學(xué)及醫(yī)學(xué)領(lǐng)域的研究人員掌握本學(xué)科領(lǐng)域的最新研究進(jìn)展。同行評(píng)議是專家根據(jù)個(gè)人的態(tài)度對(duì)文獻(xiàn)本身學(xué)術(shù)成就給予的評(píng)價(jià),主觀性大。五是突發(fā)詞監(jiān)測(cè)算法。根據(jù)詞頻變化率統(tǒng)計(jì)出低頻但具有情報(bào)意義的突發(fā)詞,探測(cè)新興研究熱點(diǎn)和研究趨勢(shì),適用于某研究領(lǐng)域前沿趨勢(shì)的探測(cè)[4]。

        近年來,國(guó)內(nèi)多位學(xué)者進(jìn)行了文獻(xiàn)主題新穎性探測(cè)的相關(guān)研究。如徐爽[4]通過突發(fā)詞監(jiān)測(cè)算法研究了全身炎癥反應(yīng)綜合征治療藥物,根據(jù)詞頻變化率統(tǒng)計(jì)出低頻但具有情報(bào)意義的突發(fā)詞,探測(cè)該領(lǐng)域新興研究熱點(diǎn);楊建林[5]運(yùn)用基于關(guān)鍵詞對(duì)逆文檔頻率的方法進(jìn)行主題新穎性的度量;陳斯斯[6]應(yīng)用詞重疊法和基于共詞的逆文檔頻率量化法對(duì)比分析探測(cè)評(píng)估醫(yī)學(xué)文獻(xiàn)主題新穎性,得出詞重疊法更優(yōu)的結(jié)論。

        有研究通過自然語言詞對(duì)方法(以下簡(jiǎn)稱“自然語言法”)計(jì)算了文檔主題新穎度,探討了文檔主題新穎度與F1000推薦文獻(xiàn)、引用情況分屬于科技論文評(píng)價(jià)的不同維度、不同范疇,不可一概而論[7]。本文在此基礎(chǔ)上提出了基于醫(yī)學(xué)主題詞詞對(duì)法的文獻(xiàn)主題新穎性探測(cè)方法(以下簡(jiǎn)稱“主題詞法”),運(yùn)用兩種方法對(duì)同一文獻(xiàn)集進(jìn)行文檔主題新穎度的計(jì)算并進(jìn)行比較分析,探討兩種方法計(jì)算文檔主題新穎度結(jié)果的一致性和差異性,以及兩種方法的優(yōu)缺點(diǎn)和與F1000推薦文獻(xiàn)的關(guān)系。

        1 研究方法與工具

        1.1 研究方法

        醫(yī)學(xué)主題詞詞對(duì)逆文檔頻率原則(Inverse Document Frequency of Mesh Pair,MPIDF),即一對(duì)共現(xiàn)的醫(yī)學(xué)主題詞詞對(duì)在量化某文檔的主題新穎度時(shí)的價(jià)值隨著在該文檔之前發(fā)表的、包含該對(duì)共現(xiàn)醫(yī)學(xué)主題詞詞對(duì)的文檔數(shù)量的增加而降低[5]。

        醫(yī)學(xué)主題詞時(shí)間逆文檔頻率是指若t為文檔D中的一個(gè)已標(biāo)引的主題詞,在文檔D之前發(fā)表的所有文檔中包含已標(biāo)引主題詞t的文檔數(shù)為N,則稱N+1為以文檔D為參照的主題詞t的文檔頻率,記為MT-IDF(D,t),稱N+1的倒數(shù)為以文檔D為參照的主題詞t的時(shí)間逆文檔頻率,記為MTIDF(D,t)。

        醫(yī)學(xué)主題詞詞對(duì)時(shí)間逆文檔頻率是指若t1、t2為文檔D中共同出現(xiàn)的兩個(gè)已標(biāo)引的醫(yī)學(xué)主題詞,在文檔D之前發(fā)表的所有文檔中同時(shí)包含已標(biāo)引醫(yī)學(xué)主題詞t1、t2的文檔數(shù)為N,則稱N+1為以文檔D為參照的醫(yī)學(xué)主題詞詞對(duì)t1、t2的文檔頻率,記為MPT-IDF(D,t1,t2),稱N+1的倒數(shù)為以文檔D為參照的醫(yī)學(xué)主題詞詞對(duì)t1、t2的時(shí)間逆文檔頻率,記為MPTIDF(D,t1,t2),得到MPTIDF(D,t1,t2)≥(MPTIDF(D,t1),MPTIDF(D, t2))。

        主題詞法文檔主題新穎度是指文檔D中所有以自身為參照的醫(yī)學(xué)主題詞詞對(duì)的時(shí)間逆文檔頻率的平均值稱為文檔D的主題新穎度,記為NOV(D,M)。計(jì)算公式為:

        式中,ti、tj為文檔D中已標(biāo)引的第i和第j個(gè)醫(yī)學(xué)主題詞,顯然NOV(D,M)∈(0,1)。

        1.2 研究工具

        1.2.1 F1000

        F1000是近年來生物醫(yī)學(xué)領(lǐng)域同行評(píng)議的文獻(xiàn)評(píng)價(jià)數(shù)據(jù)庫,每年對(duì)全球文章總數(shù)不足2‰的優(yōu)秀精品醫(yī)學(xué)論文進(jìn)行推薦和點(diǎn)評(píng),給出F1000得分,依據(jù)學(xué)術(shù)貢獻(xiàn)和科學(xué)價(jià)值挑選出優(yōu)秀論文推薦給全世界的生物學(xué)和醫(yī)學(xué)研究者[8],幫助生物學(xué)及醫(yī)學(xué)領(lǐng)域的研究人員掌握本學(xué)科領(lǐng)域的最新研究進(jìn)展。研究人員發(fā)表的論文被F1000收錄并獲得推薦,是對(duì)該論文和研究人員的高度認(rèn)可。

        1.2.2 MeSH

        《醫(yī)學(xué)主題詞表》(Medical Subject Headings,MeSH)由美國(guó)國(guó)立醫(yī)學(xué)圖書館編制而成,主要目的是提供一個(gè)分層組織的術(shù)語,用于MEDLINE/PubMed和其他NLM數(shù)據(jù)庫中生物醫(yī)學(xué)文獻(xiàn)信息的索引和編目以及檢索利用[9-10]。MeSH由主題詞(Descriptors,亦稱“敘詞”)、副主題詞(Qualifiers,亦稱“限定詞”)和增補(bǔ)概念構(gòu)成[9]。副主題詞指主題詞所論述的重點(diǎn)課題的自然范疇或通常發(fā)生的某一方面,對(duì)主題概念起限定作用[9];副主題詞與主題詞進(jìn)行邏輯組配,專指性更高,可以提高查全率和查準(zhǔn)率,是實(shí)現(xiàn)智能化檢索的重要途徑。

        本文選取自然語言法相同文獻(xiàn)集,在同篇共現(xiàn)基礎(chǔ)上計(jì)算主題詞法文檔主題新穎度,提取PubMed中已標(biāo)引的MeSH詞匯代表文章的主要內(nèi)容。該文獻(xiàn)集內(nèi)含401篇文獻(xiàn)(其中F1000推薦文獻(xiàn)33篇),具有MeSH標(biāo)引的文獻(xiàn)346篇(其中F1000推薦文獻(xiàn)30篇),從中提取MeSH標(biāo)引詞匯7 021條記錄,組合成詞對(duì)后共計(jì)約8萬條記錄。根據(jù)主題詞法文檔主題新穎度公式計(jì)算出每篇文章的新穎度值,結(jié)合自然語言法新穎度結(jié)果進(jìn)行對(duì)比分析。

        2 實(shí)驗(yàn)結(jié)果和結(jié)論

        2.1 文檔主題新穎度分區(qū)

        文檔主題新穎度值及分區(qū)情況統(tǒng)計(jì)見表1和表2。

        表1 兩種方法計(jì)算的文檔主題新穎度值(部分)

        注:* 代表F1000推薦文獻(xiàn)

        表2 主題詞法和自然語言法文檔主題新穎度值分區(qū)

        對(duì)主題詞法和自然語言法獲得的文檔主題新穎度值進(jìn)行Spearman相關(guān)性比較顯示,兩種方法在計(jì)算文檔主題新穎度之間呈正相關(guān),相關(guān)系數(shù)為0.593,P=0.000,可見主題詞法和自然語言法在計(jì)算文檔主題新穎度方面有相對(duì)等效的價(jià)值。

        主題詞法計(jì)算新穎度的范圍為PubMed中已有MeSH標(biāo)引的346篇文獻(xiàn),未標(biāo)引的55篇文獻(xiàn)主要是因下載文獻(xiàn)過新而尚未進(jìn)行標(biāo)引。主題詞法計(jì)算出的新穎度最高值為1,共有8篇,說明其在區(qū)分最高級(jí)別、最卓越文獻(xiàn)方面不是特別理想;該方法計(jì)算出的最低值為0.439。新穎度值相差0.1分為一個(gè)區(qū)間,計(jì)算結(jié)果可分為7個(gè)區(qū)間,平均新穎度值為0.8423,大于平均新穎度值的文獻(xiàn)有212篇,占統(tǒng)計(jì)文獻(xiàn)總數(shù)的61.27%。

        2.2 F1000推薦文獻(xiàn)文檔主題新穎度分區(qū)情況

        兩種方法計(jì)算的F1000推薦文獻(xiàn)文檔主題新穎度分區(qū)見表3。用主題詞法計(jì)算該文獻(xiàn)集中MeSH標(biāo)引的364篇文獻(xiàn)中,F(xiàn)1000推薦文獻(xiàn)30篇;用自然語言法計(jì)算該文獻(xiàn)集全部的401篇文獻(xiàn)中,F(xiàn)1000推薦文獻(xiàn)33篇。

        表3 主題詞法和自然語言法計(jì)算的F1000推薦文獻(xiàn)文檔主題新穎度分區(qū)

        用主題詞法計(jì)算的F1000推薦文獻(xiàn)中的新穎度最高值為1,最低值為0.448,計(jì)算結(jié)果共分為7個(gè)區(qū)間。該方法計(jì)算出的平均新穎度值為0.7592,大于平均新穎度值的文獻(xiàn)有18篇,占統(tǒng)計(jì)文獻(xiàn)總數(shù)的60%,與自然語言法占比等同,說明在識(shí)別高質(zhì)量文章情況下,兩種方法計(jì)算結(jié)果基本一致。

        2.3 兩種方法計(jì)算結(jié)果分布的一致性比較

        兩種方法計(jì)算結(jié)果分布的一致性是指主題詞法和自然語言法計(jì)算出的文檔主題新穎度值均分布在某區(qū)間的文獻(xiàn)數(shù)占統(tǒng)計(jì)文獻(xiàn)的比例。Meet/min方法是目前被公認(rèn)的一種簡(jiǎn)單有效的評(píng)估協(xié)同程度的方法[11],運(yùn)用Meet/min方法將兩種方法計(jì)算出的新穎度值分區(qū)在同一區(qū)間內(nèi)的共同文獻(xiàn)數(shù)量可定義一致率的概念,公式如下。結(jié)果見表4和圖1。

        表4 主題詞法與自然語言法計(jì)算的新穎度值一致率

        從表4可以看出,隨著新穎度值的增加,分布在同一區(qū)間內(nèi)的文獻(xiàn)篇數(shù)也在增加。新穎度值在0.5~0.8之間的一致率呈下降趨勢(shì),可能由于統(tǒng)計(jì)文獻(xiàn)的樣本數(shù)量較少所致;新穎度值在0.7~1之間的一致率呈上升趨勢(shì),說明新穎度值越高,主題詞法和自然語言法在計(jì)算文檔主題新穎度方面越能獲得相同的預(yù)測(cè)效果。

        圖1是對(duì)346篇主題詞法新穎度值和401篇自然語言法新穎度值做成的散點(diǎn)圖,橫坐標(biāo)為文獻(xiàn)序列號(hào),縱坐標(biāo)為新穎度值,其中346篇文獻(xiàn)中每個(gè)序列號(hào)分別對(duì)應(yīng)圖中兩個(gè)顏色的點(diǎn)以及它們分布的位置,所對(duì)應(yīng)的兩個(gè)點(diǎn)的距離就是兩種算法新穎度值的差距。

        從圖1可以看出,新穎度值越高,兩種顏色點(diǎn)的分布越密集,主題詞法和自然語言法計(jì)算出的文檔主題新穎度值分區(qū)越一致。

        2.4 兩種方法計(jì)算結(jié)果分布差異性比較

        兩種方法計(jì)算結(jié)果分布差異性是指同一篇文獻(xiàn)經(jīng)主題詞法和自然語言法兩種方法計(jì)算后得到的新穎度值之間的差值。結(jié)果見表5和圖2。

        圖1主題詞法和自然語言法新穎度一致性的分布散點(diǎn)圖

        表5 主題詞法和自然語言法計(jì)算的新穎度值差異

        從表5可以看出,同一篇文獻(xiàn)經(jīng)主題詞法和自然語言法兩種方法計(jì)算得到的新穎度值之差在0~0.1的最多,為257篇,占統(tǒng)計(jì)文獻(xiàn)總數(shù)的74.28%;差值在0.1~0.2的文獻(xiàn)為71篇,占統(tǒng)計(jì)文獻(xiàn)總數(shù)的20.52%;差值在0.2~0.3的文獻(xiàn)為12篇,占統(tǒng)計(jì)文獻(xiàn)總數(shù)的3.47%;差值在0.3~0.4的文獻(xiàn)為4篇,占統(tǒng)計(jì)文獻(xiàn)總數(shù)的1.16%;差值在0.4~0.5的文獻(xiàn)和在0.5~0.6的文獻(xiàn)均為1篇,分別占統(tǒng)計(jì)文獻(xiàn)總數(shù)的0.29%。

        說明絕大多數(shù)文獻(xiàn)經(jīng)兩種方法計(jì)算得到的新穎度差值在0.1以下。

        圖2 主題詞法和自然語言法新穎度差異

        圖2是根據(jù)用兩種方法對(duì)346篇進(jìn)行計(jì)算得到的每篇文獻(xiàn)新穎度差值做成的一個(gè)柱狀圖,橫坐標(biāo)代表文獻(xiàn)序列號(hào),縱坐標(biāo)代表兩種方法計(jì)算的新穎度差值。從圖2可以看出,同一篇文獻(xiàn)經(jīng)主題詞法和自然語言法計(jì)算出的新穎度值之差在0~0.1之間分布最多,差值在0.1~0.2之間的文獻(xiàn)數(shù)量次之,說明兩種方法在計(jì)算文檔主題新穎度值方面差異不大,在探測(cè)文檔主題新穎度方面具有等同的效果。

        2.5 F1000推薦文獻(xiàn)新穎度與其他指標(biāo)比較

        兩種方法計(jì)算的F1000推薦文獻(xiàn)文檔主題新穎度值與其他指標(biāo)的比較見表6。

        表6 主題詞法和自然語言法計(jì)算的F1000推薦文獻(xiàn)文檔主題新穎度情況及其他指標(biāo)比較(部分)

        上述表格各列數(shù)據(jù)經(jīng)過統(tǒng)計(jì)學(xué)方法判斷均沒有統(tǒng)計(jì)學(xué)意義,自然語言法新穎度值、IF值及F1000得分都不存在相關(guān)性,主題詞法新穎度值和F1000得分弱相關(guān),說明相比自然語言法而言,主題詞法計(jì)算新穎度值與同行評(píng)議結(jié)果趨于一致。

        圖3表示兩種方法計(jì)算的文檔主題新穎度值與F1000得分的關(guān)系,橫坐標(biāo)表示F1000得分,縱坐標(biāo)表示新穎度值,中間的橫線代表兩種方法計(jì)算的新穎度中值,兩者距離越相近,說明兩種方法計(jì)算出的新穎度值越靠近。從圖3可以看出,隨著F1000得分的增高,兩種方法計(jì)算的新穎度越相關(guān)。兩種方法計(jì)算得到的新穎度值的高低與文獻(xiàn)所在期刊的IF值并無明顯相關(guān)性。

        3 討論

        3.1 兩種方法優(yōu)缺點(diǎn)對(duì)比分析

        從計(jì)算層次來看,兩種方法均是從文本層出發(fā)進(jìn)行的主題新穎性探測(cè),不同之處在于主題詞法是在同篇共現(xiàn)基礎(chǔ)上進(jìn)行的計(jì)算,能將整個(gè)文獻(xiàn)集內(nèi)經(jīng)過MeSH標(biāo)引的文獻(xiàn)進(jìn)行計(jì)算獲得新穎度值;自然語言法是在同篇同句共現(xiàn)基礎(chǔ)上進(jìn)行計(jì)算,將提取的自然語言詞匯經(jīng)公式計(jì)算后獲得的新穎度值[7]。

        從計(jì)算范圍來看,主題詞法計(jì)算了文獻(xiàn)集內(nèi)經(jīng)MeSH標(biāo)引的346篇文獻(xiàn),自然語言法計(jì)算了文獻(xiàn)集內(nèi)的全部文獻(xiàn)401篇,計(jì)算范圍比主題詞法廣泛。

        相比較而言,主題詞法具有不可替代的自身優(yōu)勢(shì),它將自然語言轉(zhuǎn)換成規(guī)范化名詞術(shù)語,在揭示文章主要內(nèi)容、表達(dá)主旨含義上更加科學(xué)、準(zhǔn)確,在計(jì)算新穎度值上更加準(zhǔn)確,與同行評(píng)議結(jié)果符合度更高;自然語言法通過MetaMap提取自然語言詞匯,在進(jìn)行計(jì)算時(shí)可以不受時(shí)間的限制而將整個(gè)文獻(xiàn)集內(nèi)的全部文獻(xiàn)進(jìn)行計(jì)算得到不同的新穎度值,在一定程度上代表主旨含義,在揭示新興主題概念方面具有更高的價(jià)值[7]。

        圖3 兩種方法新穎度值與F1000得分關(guān)系

        雖然MeSH每年都在更新,但仍然滯后于科學(xué)技術(shù)的發(fā)展。新的科技詞匯要在出現(xiàn)一段時(shí)間后才會(huì)經(jīng)過專家學(xué)者推薦核準(zhǔn)為正式的主題詞用于文章標(biāo)引,這在體現(xiàn)最新科技研究成果方面會(huì)受到制約。同時(shí)最新發(fā)表文獻(xiàn)因尚未進(jìn)行MeSH標(biāo)引,在進(jìn)行計(jì)算時(shí)有一定限制,早年發(fā)表的文獻(xiàn)也存在缺失標(biāo)引或者未標(biāo)引的情況。而自然語言法因受MetaMap自由度影響,隨其詞匯源不斷更新,MetaMap提取新興科技詞匯的效果好則結(jié)果好,反之亦然[7]。

        本文兩種文檔主題新穎度的計(jì)算方法,對(duì)評(píng)價(jià)量化文獻(xiàn)主題新穎性提出了全新指標(biāo),兩者在一定程度上有著等效價(jià)值,隨著計(jì)算的文檔主題新穎度值的增高,兩種方法計(jì)算出的新穎度值越相近。

        3.2 論文不同層面評(píng)價(jià)指標(biāo)分析

        本文兩種方法計(jì)算的文檔主題新穎度是從文本層面出發(fā)而進(jìn)行的客觀量化分析評(píng)價(jià),分別從文中提取詞對(duì)進(jìn)行計(jì)算,通過發(fā)現(xiàn)對(duì)比之前文獻(xiàn)集中尚未出現(xiàn)的詞對(duì)情況來證明文獻(xiàn)的新穎程度,對(duì)文獻(xiàn)集中每一篇文章給出評(píng)價(jià),相對(duì)更加客觀。同行評(píng)議指標(biāo)F1000評(píng)分相對(duì)簡(jiǎn)單,僅將各位專家評(píng)分累積求和即可獲得F1000得分。F1000是基于同行評(píng)議的論文評(píng)價(jià),難以保證評(píng)價(jià)的絕對(duì)客觀性,同時(shí)也存在運(yùn)用范圍不夠廣泛、全面的情況。

        本文發(fā)現(xiàn)F1000得分與主題詞法新穎度值存在弱相關(guān),表明該方法通過提取代表主旨含義的醫(yī)學(xué)主題詞詞對(duì)進(jìn)行計(jì)算后得到的新穎度值與專家同行評(píng)議在一定程度上一致,也就是從論文評(píng)價(jià)的不同層面給出相對(duì)一致的結(jié)論。這也與劉春麗發(fā)現(xiàn)不同類型計(jì)量指標(biāo)對(duì)同一組論文影響力的評(píng)估具有一致性的結(jié)論相符[12]。

        3.3 文獻(xiàn)提取和計(jì)算過程中的不足

        PubMed數(shù)據(jù)庫中記錄的錯(cuò)誤對(duì)于結(jié)果有一定的影響,如自然語言法提取文獻(xiàn)已經(jīng)限定PT為非Review,而主題詞法在提取已標(biāo)引MeSH詞匯時(shí)有Review的出現(xiàn),PubMed數(shù)據(jù)庫在錄入方面存在不一致情況,會(huì)對(duì)結(jié)果產(chǎn)生一定影響。

        主題詞法在進(jìn)行計(jì)算時(shí),選取只保留“主題詞”“主題詞/副主題詞”一致即可,把加權(quán)符號(hào)去除,不考慮加權(quán)標(biāo)引。因考慮到文獻(xiàn)集內(nèi)不同文章進(jìn)行加權(quán)標(biāo)引一致情況較少,所以只要文章出現(xiàn)同樣的標(biāo)引詞即認(rèn)為一致,可能會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響。

        4 結(jié)語

        主題詞法和自然語言法可從文本層面計(jì)算文檔主題新穎度,兩者各有優(yōu)勢(shì),自然語言法在計(jì)算范圍和最新發(fā)表的文獻(xiàn)推薦方面要略優(yōu)于主題詞法,主題詞法在揭示文章主旨含義方面優(yōu)于自然語言法。

        根據(jù)相關(guān)性比較,主題詞法和自然語言法在計(jì)算文檔主題新穎度方面具有相對(duì)等效的價(jià)值。新穎度值越高,兩種方法計(jì)算出的文檔新穎度值分區(qū)越一致。

        主題詞法文檔主題新穎度與F1000得分呈弱相關(guān),說明主題詞法的文檔主題新穎度準(zhǔn)確性更接近于專家同行評(píng)議。

        猜你喜歡
        度值新穎性標(biāo)引
        探討公路項(xiàng)目路基連續(xù)壓實(shí)質(zhì)量檢測(cè)技術(shù)
        外觀新穎性對(duì)消費(fèi)者購(gòu)買意愿的影響:自我建構(gòu)與產(chǎn)品類型的調(diào)節(jié)效應(yīng)
        檔案主題標(biāo)引與分類標(biāo)引的比較分析
        日本計(jì)劃將新穎性寬限期延長(zhǎng)至12個(gè)月
        本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
        無線傳輸中短碼長(zhǎng)噴泉碼的度分布優(yōu)化算法*
        微博網(wǎng)絡(luò)較大度值用戶特征分析
        科技傳播(2016年17期)2016-10-10 01:46:58
        本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
        《國(guó)防專利條例》新穎性標(biāo)準(zhǔn)應(yīng)當(dāng)及時(shí)進(jìn)行修改
        本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
        亚洲男人的天堂在线aⅴ视频| 国产另类人妖在线观看| 亚洲写真成人午夜亚洲美女| 欧美成人看片一区二区三区尤物| 国产在线观看免费观看| 国产在线拍偷自拍偷精品| 少妇又色又爽又刺激的视频| 无套无码孕妇啪啪| 狠狠噜天天噜日日噜视频麻豆| 国产91在线免费| 国产成人精品一区二区日出白浆| 人妻一区二区三区av| 亚洲欧美日韩国产精品一区二区 | av黄片免费在线观看| 午夜av天堂精品一区| 国产精品一卡二卡三卡| 四月婷婷丁香七月色综合高清国产裸聊在线 | 全免费a级毛片免费看无码 | 亚洲av之男人的天堂| 精品一区二区三区人妻久久| 亚洲国产av一区二区三区天堂| 欧美亚洲国产一区二区三区| 欧美日韩在线免费看| 日本福利视频免费久久久| 国产日产久久高清ww| 色综合视频一区中文字幕| 好爽受不了了要高潮了av| 亚洲国内精品一区二区在线| 香蕉成人伊视频在线观看| 大陆极品少妇内射aaaaa| 国产精品98视频全部国产| 久久99人妖视频国产| av中文字幕潮喷人妻系列| 两个黑人大战嫩白金发美女| av毛片一区二区少妇颜射| 一区二区三区高清在线观看视频| 日韩激情无码免费毛片| 全部免费国产潢色一级| 国产精品髙潮呻吟久久av| 亚洲欧美牲交| 麻豆91免费视频|