陳果,王盼停,王曰芬
(1.南京理工大學經(jīng)濟管理學院信息管理系,南京 210094;2.江蘇省社會公共安全科技協(xié)同創(chuàng)新中心,南京 210094)
以文獻為數(shù)據(jù)源的科技領域情報分析中,情報工作人員往往會遇到這樣的質(zhì)疑:用于分析的文獻集是否真的可靠?這一問題直接決定了科技情報分析結(jié)果有效與否。然而,遺憾的是,這一至關(guān)重要的問題至今懸而未決。在現(xiàn)實中,情報工作人員不得不基于過往常規(guī)經(jīng)驗,而非量化論據(jù)來回答這一問題。
實際上,領域文獻集可靠性這一問題產(chǎn)生的根源,是科技文獻普遍存在的集中與離散的分布規(guī)律:其集中性使得人們能低成本、快速地獲取一批與領域相關(guān)的文獻;然而,其離散性又使得人們難以有效獲取與領域相關(guān)的“全部且精準”文獻集。這與信息檢索中理想結(jié)果集的不可得問題是類似的。值得注意的是,即使是在當前“大數(shù)據(jù)”環(huán)境下,大規(guī)模開源文獻數(shù)據(jù)集獲取相對容易,但即便擁有世界上全部的文獻數(shù)據(jù),仍然難以從中有效地抽取構(gòu)造能代表給定領域的“理想文獻集”。
通過深入分析可知,在科技領域情報分析中,文獻集是否可靠這一問題可分解為兩個子問題:一是全不全;二是準不準。前者側(cè)重于文獻集的規(guī)模問題,后者側(cè)重于文獻集中的雜質(zhì)和代表性偏差問題。本文針對第一個子問題開展探索:在不考慮文獻集中雜質(zhì)和代表性偏差的情況下,單純的文獻集規(guī)模對科技情報分析結(jié)果可靠性有何影響?鑒于科技情報分析中有多種任務場景,本文將綜合考慮待分析領域大小、待分析對象(學科分類、國家、機構(gòu)、關(guān)鍵詞、引文、作者以及其各自共現(xiàn)關(guān)系)、待分析對象的Top值(如高頻詞)截取數(shù)量、結(jié)果是否考慮排序等常見的多種任務場景,計算不同規(guī)模抽樣子文獻集對全量文獻集的擬合情況,以量化指標解答該問題。后續(xù)將在此基礎上進一步考慮幾種常見的領域文獻集構(gòu)造方式的準確性問題。
評判情報研究有效性的一個重要依據(jù),是其結(jié)果接近真實結(jié)果的程度[1];而制約情報研究有效性的首要因素,則是信息不充分問題,包括信息不完全(即搜集到的信息不完整、不真實)和信息量短缺(即搜集到信息在規(guī)模上不足以支撐其結(jié)論)[2]。在數(shù)據(jù)挖掘相關(guān)工作中,技術(shù)方案有效性的一個重要評估指標是數(shù)據(jù)集規(guī)模,其原因是大規(guī)模數(shù)據(jù)集能夠更好地覆蓋真實情況中的多樣性問題[3]。在自然語言處理相關(guān)工作中,語料庫可靠性的本質(zhì)問題是其能否真正代表所期望的語言或語體[4];相應地,規(guī)模是語料庫構(gòu)造的重要問題,直接關(guān)系到最終結(jié)果的可靠性,但這也是一個難以回答的問題[5]。
目前,在科技情報分析相關(guān)研究中,還沒有專門針對領域文獻集規(guī)模問題開展的研究。馮璐[6]在《面向?qū)W科信息集成的領域分析數(shù)據(jù)集構(gòu)建》中,對領域數(shù)據(jù)集界域、來源數(shù)據(jù)組織狀態(tài)、數(shù)據(jù)集數(shù)據(jù)質(zhì)量控制等進行分析研究,明確了邊界模糊、交叉的領域數(shù)據(jù)集構(gòu)建應該包含的要素,但并未對數(shù)據(jù)集的規(guī)模問題開展深入研究。實際上,在研究和實踐中,情報工作者往往是采用慣用方式,從數(shù)據(jù)庫中檢出相應的領域題錄數(shù)據(jù)。通過對以往面向領域的科技情報分析研究中文獻集構(gòu)造方式進行歸納可知,典型的領域文獻集構(gòu)造方式有兩種:一種是將待分析領域直接與文獻數(shù)據(jù)庫中若干類目對應,這種方式看似較為理想的情況相對受限,且所檢出文獻的可靠性受文獻數(shù)據(jù)庫組織方式影響,典型的如WoS(Web of Science)數(shù)據(jù)庫中類目是按正本期刊粒度給定,已有研究發(fā)現(xiàn),WoS學科類目下文獻雜質(zhì)多且不全[7];另一種方式是針對待分析領域,基于作者經(jīng)驗、專家意見或特定的列表,選定代表給定領域的若干關(guān)鍵詞[8-9]、主題詞[10]、期刊(或會議)[11-12]、引文[13-14],作為檢索條件獲取結(jié)果文獻集作為分析數(shù)據(jù)源。這些文獻集構(gòu)造方式都默認所得檢索結(jié)果能夠代表待分析領域,因而文獻集的規(guī)模問題并未引起重視。相應地,出現(xiàn)了在分析同一領域時,文獻集規(guī)模差異懸殊的現(xiàn)象。例如,同樣是分析“Library and Information Science”這一領域,研究者們采用的文獻集規(guī)模的差異明顯[15],從幾十篇[16],到幾百篇[17]、上千篇[18]、上萬篇[11]不等。但可以肯定的是,文獻集規(guī)模對于領域分析結(jié)果的可靠性存在影響[19]。
一方面,在開展科技領域情報分析時,文獻集的構(gòu)造不可能既全面又準確,這是由文獻分布的集中與離散定律決定的[20]。因此,文獻集的構(gòu)造實質(zhì)上是“準”和“全”兩個互相干擾因素的均衡問題。另一方面,數(shù)據(jù)分析相關(guān)實踐已表明,當數(shù)據(jù)集達到一定規(guī)模后,再增加數(shù)據(jù)后通常難以再帶來收益[21]。因此,如何尋找有代表性的數(shù)據(jù)子集引起人們關(guān)注,在文本數(shù)據(jù)集上也有相關(guān)研究[3]。進一步具體到科技領域文獻分析上,有研究者認為,應在開展文獻重要特征遴選與測度的基礎上,按比例抽樣縮減文獻,以初步形成領域分析文獻集[22]。此外,鑒于領域文獻數(shù)據(jù)集構(gòu)造與領域分析需求和目標直接相關(guān)[23],在考慮其規(guī)模對結(jié)果影響時,也需要區(qū)分相應的情報分析任務場景。
如前文所述,在排除文獻集中雜質(zhì)和代表性偏差干擾的影響下,單純的文獻集規(guī)模對結(jié)果可靠性的影響,本質(zhì)上是在多大規(guī)模的子文獻集上開展分析,所得到的結(jié)果能夠與全量文獻集結(jié)果(可稱為“真實結(jié)果”)保持一致。因此,對于文獻規(guī)??煽啃缘奶剿?,可轉(zhuǎn)化為從某個文獻集上生成一定規(guī)模的抽樣子文獻集,在子文獻集下的分析結(jié)果與原文獻集結(jié)果的一致性計算。這就是本文實驗方案設計的基本思路。
然而,在現(xiàn)實中,科技情報分析任務場景繁多,不同任務場景對文獻集規(guī)模的要求必然存在差異。因此,本文實驗方案不僅是簡單的抽樣,還需要較為全面地梳理科技情報分析的諸多任務場景,并在相應任務場景下考察不同抽樣規(guī)模子文獻集對真實結(jié)果的擬合效果?;趯σ酝墨I的調(diào)研和既有實踐經(jīng)驗,本文將基于文獻的科技情報分析任務場景歸納為如下幾個方面。
1)待分析領域本身大?。捍箢I域和小領域
在探討科技情報分析中所采用領域文獻集規(guī)模時,需要考慮待分析領域本身規(guī)模的大小對所采用的文獻集規(guī)模產(chǎn)生相應影響。例如,分析一個大的領域(如計算機學科)和分析一個小的領域(如“本體”相關(guān)研究)兩種情況下,前者自然要求采用的文獻集規(guī)模更大。考慮這一問題,本文需要至少構(gòu)造“大領域”“小領域”兩種待擬合的全量文獻集。
2)待分析對象:元素和元素共現(xiàn)
根據(jù)當前科技情報分析普遍關(guān)注的元素,重點考慮文獻題錄數(shù)據(jù)中的6個重要字段(學科分類、國家、機構(gòu)、論文關(guān)鍵詞、引文、作者),以及6種同字段共現(xiàn)項(學科分類共現(xiàn)、國家合作、機構(gòu)合作、作者合著、關(guān)鍵詞共現(xiàn)、引文共被引),共12種待分析對象,以考察不同規(guī)模抽樣子文獻集對全量文獻集在各個元素和元素共現(xiàn)項上的擬合程度。需要注意的是,由于WoS文獻集中包括期刊論文和會議論文,因此,本文不專門針對期刊這一元素進行分析。
3)待分析對象的Top數(shù)量截取
鑒于在科技情報分析中,人們往往關(guān)注頻次較高的元素和元素共現(xiàn),例如,分析結(jié)果中通常列舉TopN的元素,或者在構(gòu)建共現(xiàn)網(wǎng)絡時,過濾掉連接強度較低的邊。本文實驗中,需要考察各分析對象在多種TopN取值下的擬合結(jié)果。進一步地,不同分析對象的Top數(shù)量需要有所區(qū)別。例如,Top國家的數(shù)量宜在5~100的范圍內(nèi)逐步增加,而Top關(guān)鍵詞的數(shù)量則宜在50~1000的范圍內(nèi)逐步增加。具體數(shù)量,需要結(jié)合實踐經(jīng)驗界定。
4)結(jié)果排序與否
科技情報分析中,對待分析對象的獲取有兩種常見要求:一是重要元素識別,即識別出某一分析元素上有哪些重要的結(jié)果,例如,某領域重要作者有哪些;二是重要元素排序,不僅要識別出重要的結(jié)果,還要考慮結(jié)果之間的排序,如某領域的作者榜單。前者的可靠性可采用重合率評估;后者的可靠性可采用斯皮爾曼系數(shù)來評估。
依據(jù)上述研究思路,本文設計了相應的實驗:對人工智能領域兩種全量文獻集開展不同規(guī)模的隨機抽樣,計算各種規(guī)模下子文獻集結(jié)果與全量文獻集結(jié)果的重合率、斯皮爾曼系數(shù)結(jié)果值,評估不同背景領域文獻集規(guī)模、不同分析任務、不同待分析對象下,不同規(guī)模子文獻集在全量文獻集上的擬合結(jié)果??傮w思路如圖1所示。
圖1 實驗方案總體流程圖
本文使用的數(shù)據(jù)來源于WoS數(shù)據(jù)庫中的核心合集數(shù)據(jù),這些數(shù)據(jù)對于學科領域分析來說是非常重要的,因為其不僅收錄了具有廣泛認可、權(quán)威性的期刊和論文,而且相關(guān)知識單元也非常完整,如學科分類、國家、機構(gòu)、作者、關(guān)鍵詞、引文等文獻計量指標,能夠較好的滿足本文的研究需求[24]。
3.1.1 大領域、小領域全量文獻集的構(gòu)造
在WoS數(shù)據(jù)庫中,選擇高級檢索,按照“WC=Artificial Intelligence and PY=1996-2016”的檢索式,選擇數(shù)據(jù)庫中“Web of Science核心合集”,獲取到1996—2016年人工智能領域的723187篇文獻的題錄數(shù)據(jù)。以此為基礎,構(gòu)造待擬合的大領域、小領域全量文獻集。
大領域全量文獻集:上述人工智能領域的723187篇文獻,其規(guī)模在現(xiàn)有的科技情報分析中可作為較大領域的代表,故直接采納作為大領域全量文獻集。
小領域全量文獻集:為便于后續(xù)比較的一致性,我們從上述文獻集中,抽出2016年的47666篇文獻,作為一個模擬的“小領域”全量文獻集,供后續(xù)實驗比較。
這兩個全量文獻集是作為后續(xù)不同規(guī)模文獻集的抽樣背景和擬合的“真實標準”。
3.1.2 抽樣數(shù)據(jù)集
抽樣數(shù)據(jù)集是用來與全量集進行擬合的數(shù)據(jù)集。我們對723187篇文獻所代表的“大領域”,采用5000、10000、20000、50000和100000共5種 規(guī)模進行抽樣;對47666篇文獻所代表的“小領域”,采用5000、10000和20000共3種規(guī)模進行抽樣。為了避免單次抽樣帶來的不確定性,本文對每種規(guī)模抽樣5次,后續(xù)評估指標計算時,采用5次抽樣的平均值。
3.1.3 待分析對象提取及其Top值設定
從原始題錄數(shù)據(jù)中抽取相應元素,并進行預處理,得到本文實驗中的12種待分析對象。各對象及其在WoS中的來源字段、預處理過程如表1所示。
根據(jù)上述對各字段的預處理,最終得到6種元素作為待分析對象,在其基礎上進一步統(tǒng)計共現(xiàn)信息,得到另外6種元素共現(xiàn)信息作為待分析對象,分別為:學科分類共現(xiàn)、國家合作、機構(gòu)合作、關(guān)鍵詞共現(xiàn)、引文共被引和作者合著。針對各分析對象,結(jié)合文獻調(diào)研和實踐經(jīng)驗,本文設置了各分析對象待擬合的TopN值,如表2所示。
表2 各分析對象待擬合的Top N值選擇
值得注意的是,實際操作中,N不一定與表2中給定值相同,因為降序后取第N個對象時,通常會出現(xiàn)后面還有若干個(記為n)對象與其頻次一樣,不宜簡單按N個截取,而應順延截取N'=N+n個對象。
在上述待分析對象上,本文針對科技情報分析中常見的兩種任務——重要元素識別和重要元素排序,分別設計相應的擬合評估指標。
1)重要元素識別
在重要元素識別任務上,人們更關(guān)注的是重要的元素或元素共現(xiàn)項是否被覆蓋到,例如,Top10國家中有多少個被識別出來了。本文采用抽樣結(jié)果與全量結(jié)果的重合率[25](overlap rate)來評估擬合情況,其計算方法為
其中,Cx為某一字段的抽樣數(shù)據(jù);N為某一Top值;|Cx∩Call|為抽樣文獻集Cx和全量數(shù)據(jù)Call在該字段該TopN值上所得結(jié)果的重合數(shù);N'為實際的TopN值。
2)重要元素排序
在排序重要元素任務上,人們更關(guān)注所得重要元素的排序與實際是否一致。例如,Top 10國家的次序與實際上的一致性。本文采用斯皮爾曼系數(shù)(Spearman correlation)來評估擬合情況。斯皮爾曼系數(shù)[26]又稱斯皮爾曼秩相關(guān)系數(shù),其中的“秩”即順序、排序,其可用于衡量抽樣擬合排序與真實排序間的相關(guān)程度,計算方法為
其中處理的基本數(shù)值是排序等級值。計算公式(2)前,先將抽樣數(shù)據(jù)集Cx、全量數(shù)據(jù)集Call中TopN個對象進行合并,得到對象集合Ex∪all,xi、yi為Ex∪all中 任 一 對 象Ei在Cx、Call中 的 排 序 值,xˉ、yˉ則對應Ex∪all中全部對象在Cx、Call中的平均降序位置。
本文根據(jù)上述方案開展實驗,具體而言:在大、小兩種規(guī)模的全量文獻集的基礎上,進行8種規(guī)模各5次抽樣,每次抽樣計算12種評估對象(包括6種元素和6種元素共現(xiàn)項)在5個TopN上與全量結(jié)果之間的2個擬合值(包括重合率和斯皮爾曼系數(shù))。最終,共得到8×5×12×5×2=4800個擬合指標值。
完成抽樣實驗、計算得到重復率和斯皮爾曼系數(shù)后,分別將大領域、小領域各分析對象在不同抽樣規(guī)模、不同Top取值上對全量文獻集的擬合指標值繪制成折線圖(圖2~圖5),以便觀察和判斷在不同的科技情報分析場景下,領域文獻集規(guī)模對全量文獻集擬合效果。
通過觀察圖2~圖5,對擬合結(jié)果進行歸納分析。首先,基于整體分析,得到一個整體的規(guī)律;其次,從不同元素之間、不同Top值之間、元素與元素共現(xiàn)、結(jié)果排序與否四個方面,分別得到不同維度的規(guī)律。下文將做詳細論述。
圖5 小領域知識關(guān)聯(lián)擬合結(jié)果
第一,單純從規(guī)模上看,文獻集規(guī)模越大越好。無論待分析的科技領域規(guī)模多大,在各種分析場景下,均出現(xiàn)抽樣的子文獻集規(guī)模越大,擬合的情況越好。例如,從圖2和圖3中,可以明顯地看出,除了學科分類和國家這兩個元素的擬合結(jié)果上有個別值不穩(wěn)定外,其他元素都是隨著抽樣集規(guī)模的增加,擬合結(jié)果值在不斷的提升。這說明科技領域情報分析在沒有雜質(zhì)干擾和檢索偏差的前提下,無論做何種分析,文獻集規(guī)模越大,分析結(jié)果就越能代表真實情況。那么,現(xiàn)實中是否有必要盡可能地擴大文獻集規(guī)模呢?我們發(fā)現(xiàn)還有如下第二個整體規(guī)律。
圖3 小領域知識單元擬合結(jié)果
第二,文獻集規(guī)模擴大,存在明顯的邊際效益遞減效應。隨著抽樣子文獻集規(guī)模的增加,擬合效果在提升的同時,也存在明顯的邊際效益遞減規(guī)律。例如,在圖2中,抽樣規(guī)模從5000擴大到10000時,盡管只增加了5000個樣本,擬合指標卻出現(xiàn)了大幅地提升;然而,當抽樣規(guī)模從50000擴大到100000時,盡管增加了50000個樣本,擬合指標值的提升卻不明顯。這說明在科技情報分析中(除分析對象是作者外),當文獻集規(guī)模達到一定程度后,再繼續(xù)擴大文獻集規(guī)模收益已經(jīng)不大了。相應地,可將注意力轉(zhuǎn)移到檢索方式導致的文獻集雜質(zhì)和代表性偏差問題。
圖2 大領域知識單元擬合結(jié)果
不同分析對象對文獻集規(guī)模的要求不同。無論是在元素,還是在元素共現(xiàn)上;無論是在元素識別,還是在元素排序上,不同待分析對象的擬合結(jié)果之間存在差異。從圖2~圖5可看出,通過不同規(guī)模抽樣文獻集來擬合全量文獻集時,學科分類和國家的擬合效果都很好,機構(gòu)、關(guān)鍵詞和引文的擬合效果稍差,而作者的擬合效果最差。例如,在圖2中,用5000篇抽樣文獻去擬合大領域720000多篇全量文獻時,學科分類和國家在重合率、斯皮爾曼系數(shù)兩種指標值上均基本達到0.9;而機構(gòu)、關(guān)鍵詞和引文的擬合指標要想達到0.9,抽樣規(guī)模至少需要100000;作者則很難利用抽樣子文獻集擬合到0.9的水平。結(jié)合圖3可進一步得知,即使是隨機抽樣20000篇文獻,來對50000篇左右的小領域全量集中作者元素進行擬合,其重合率只有0.6左右,而考慮排序的斯皮爾曼系數(shù),則隨著TopN的增加進一步下降到0.2附近。
這說明,在科技情報分析中,不同分析對象對文獻集規(guī)模的要求存在明顯的差異。分析學科分類或國家時,對文獻集的規(guī)模要求較低;分析機構(gòu)、關(guān)鍵詞或引文時,對文獻集的規(guī)模要求處在中等水平;而分析作者時,對文獻集的規(guī)模要求是極高的。特別是,對于各種“作者排名”“作者合著分析”,一定要保障其文獻集足夠大,否則結(jié)果可靠性是存疑的。相應的結(jié)果,可歸納如表3所示。
表3 不同元素文獻集規(guī)模要求對比
究其原因,主要是由于不同元素的集中與分散效應差別明顯。學科分類、國家的數(shù)量少,因而文獻集中情況明顯;機構(gòu)、關(guān)鍵詞、引文、作者的數(shù)量多,但文獻集中情況有差異:在機構(gòu)、關(guān)鍵詞、引文上,高頻元素累積了大量的文獻,會有明顯的“頭部聚集效應”;而就作者而言,由于發(fā)文成本高,盡管也存在馬太效應,但高頻作者累積的文獻量規(guī)模并不懸殊,更明顯的是“長尾離散效應”。
同一分析對象下,取不同Top值開展分析時,對文獻集規(guī)模要求也不同。觀察圖2~圖5可知,除了某些小規(guī)模抽樣指標不穩(wěn)定的情況下,隨著Top值的增加:①學科分類及其共現(xiàn)、國家及其共現(xiàn)、以及機構(gòu)的擬合結(jié)果都不存在明顯的增加或下降規(guī)律;②機構(gòu)共現(xiàn)、關(guān)鍵詞及其共現(xiàn)、作者及其共現(xiàn)、引文及其共現(xiàn)的擬合結(jié)果都呈現(xiàn)出明顯的下降趨勢。并且這種下降趨勢在小規(guī)模抽樣數(shù)據(jù)集上更為劇烈。例如,圖2和圖3中的引文、關(guān)鍵詞擬合指標,隨著TopN的增加,較大規(guī)模抽樣集(如20000、50000、100000)的擬合指標緩慢下降,但較小規(guī)模抽樣集(如5000、10000)的擬合指標急劇下降;圖2中關(guān)鍵詞在5000抽樣集上,斯皮爾曼擬合指標從Top 50的0.7急劇下降到Top 100的0.3左右。
這些說明,在科技情報分析中,如果要列舉或者排序大量除學科分類、國家之外的高頻分析對象,那么需要采用較大規(guī)模的文獻集(本例中無論領域全量集大小,用于擬合的抽樣集規(guī)模應達到20000以上),才能得到較為可靠的結(jié)果。
究其原因,應與特定領域內(nèi)論文涉及的學科分類、國家、機構(gòu)數(shù)量相對有限,論文在高頻元素上的集中效應導致TopN個元素相對穩(wěn)固,因此,增加待分析對象的Top值不會導致擬合效果變差。而關(guān)鍵詞、引文、作者的數(shù)量較多,高頻元素上的集中效應不如前幾者明顯,導致頻次排序不夠穩(wěn)定,因此,增加待分析對象的Top值會導致擬合效果變差。
元素排序?qū)ξ墨I集規(guī)模要求更高。如果科技情報分析任務中需要對相應元素進行排序(如作者排名、機構(gòu)合作排名等),那么其對文獻集規(guī)模的要求比不排序更高。由圖2~圖5可知,除學科分類這種擬合情況普遍極高的特例外,無論待擬合的背景文獻集有多大(即大領域、小領域),無論是哪一個待分析對象,無論是元素分析還是元素共現(xiàn)分析,排序的擬合結(jié)果(斯皮爾曼系數(shù))均差于不排序。代表性的例子如圖2中的引文擬合折線圖,橫向來看,抽樣規(guī)模是10000時,不同Top取值下,重復率值在0.7~0.85之間,而斯皮爾曼系數(shù)值在0.6~0.8之間;而縱向來看,當取相同的Top值時,無論抽樣規(guī)模多大,重復率值總是高于斯皮爾曼系數(shù)值。
排序?qū)ξ墨I集規(guī)模要求更高在以下三種情況會帶來極端影響:①文獻集規(guī)模太小時;②待分析元素Top值較大時;③分析元素共現(xiàn)情況時。例如,在圖2和圖3中,抽樣5000分別擬合大領域、小領域時,引文、關(guān)鍵詞的排序擬合情況欠佳,尤其是在Top值提升時,斯皮爾曼系數(shù)急劇下降。而在圖4和圖5中,除學科分類共現(xiàn)、國家合作的排序擬合效果較好外,其他元素共現(xiàn)的排序擬合大多為負值。
圖4 大領域知識關(guān)聯(lián)擬合結(jié)果
另外,由于重復率與斯皮爾曼系數(shù)的計算方式不同,使用其絕對值難以進行比較,但是對比同一任務下這兩個擬合指標的相對值(同一圖同一列的上下子圖對比),可發(fā)現(xiàn)不同抽樣規(guī)模下斯皮爾曼系數(shù)折線的間距明顯大于重復率;并且同一規(guī)模子文獻集上,改變Top值的大小,斯皮爾曼系數(shù)值的折線變化則更加明顯。
總體而言,在科技情報分析中,除學科分類、國家外:①如果要對機構(gòu)、引文、關(guān)鍵詞開展排序(如各種排名),那么文獻集規(guī)模不宜低于10000~20000級別;如果是對元素共現(xiàn)進行排序,那么文獻集規(guī)模需要盡可能大;②涉及作者、作者合著的排序,對文獻量要求極高,有必要盡可能全地收集文獻;③排序的元素數(shù)量越多,對文獻集要求越高,即現(xiàn)實中生成的榜單越長,其文獻集要求越全。基于這些發(fā)現(xiàn),本文在研究和實踐中,可以明確有哪些科技情報分析結(jié)果值得質(zhì)疑。例如,用少量文獻做作者排序或者除國家和學科分類外各種共現(xiàn)分析時,所得結(jié)果的可靠性不強。
相比基本的元素(如機構(gòu)、引文等)分析而言,元素共現(xiàn)(如機構(gòu)合作、共被引等)分析對文獻集規(guī)模要求更大。觀察圖2~圖5可知,這一結(jié)論在全部任務場景下均成立。典型例子如機構(gòu)和機構(gòu)合作,在圖2中,5000篇文章擬合大領域時,機構(gòu)的重復率在0.75左右,斯皮爾曼系數(shù)在0.6左右;而在圖4中,5000篇文章擬合大領域時,機構(gòu)合作的重復率均低于0.4,斯皮爾曼系數(shù)為負值;若要使機構(gòu)合作的重復率達到同等的0.75,則其文獻規(guī)模至少要達到50000,若要使其斯皮爾曼系數(shù)達到同等的0.6,則其文獻規(guī)模需要超過100000。同樣地,也可以觀察到國家、關(guān)鍵詞、引文、作者各自的共現(xiàn)分析與元素分析的擬合效果差距明顯。
除了學科分類共現(xiàn)和國家合作外,用小規(guī)模數(shù)據(jù)集做機構(gòu)合作、共被引分析、關(guān)鍵詞共現(xiàn)、作者合著等共現(xiàn)分析時,結(jié)果可靠性都很差;如果要進一步對共現(xiàn)關(guān)系進行排序,那么結(jié)果可靠性更差。與此同時,機構(gòu)合作、共被引分析、關(guān)鍵詞共現(xiàn)這幾種情況,在文獻集規(guī)模達到一定值時,結(jié)果可靠性可保持相對較高的水平。例如,從圖4和圖5可知,針對700000余篇文獻的大領域,大約100000篇文獻即可保持大多任務下這三種共現(xiàn)分析的兩種擬合值不低于0.8;而針對50000余篇文獻的小領域,大約20000篇文獻,即可保持相對較好的擬合結(jié)果。
在基于文獻的科技領域情報分析中,排除文獻集中雜質(zhì)和代表性偏差干擾的影響,為了得到可靠的結(jié)果,領域文獻集規(guī)模越大越好;但另一方面,隨著文獻集規(guī)模的增大,進一步擴展其規(guī)模的成本較高,且對結(jié)果可靠性的提升效果逐漸消失。另外,分析學科分類、國家(及其共現(xiàn)關(guān)系)的任務對于文獻集規(guī)模要求極低,本文中5000篇抽樣文獻即可在絕大多數(shù)任務場景下可靠地擬合包含700000余篇文獻的大領域;分析作者及其共現(xiàn)關(guān)系的任務對于文獻集規(guī)模要求極高,本文中以20000篇抽樣文獻,仍不能可靠地擬合50000篇文獻的小領域;分析機構(gòu)、關(guān)鍵詞、引文(及其共現(xiàn)關(guān)系)的任務,盡管可以用一定規(guī)模(相對來說,仍是總量的一小部分)文獻集得到可靠的結(jié)果,但不同任務場景對文獻集規(guī)模的要求不同,如果是涉及結(jié)果排序、共現(xiàn)關(guān)系分析、元素Top取值較多這三種情況,那么文獻集規(guī)模要求更高。
上述發(fā)現(xiàn)以及本文詳細圖表,可在一定程度上可指導情報工作人員明確其分析任務,文獻集規(guī)模到底是否合適;特別是,有助于情報工作人員判斷是應進一步搜集文獻以擴大規(guī)模,還是避免擴大文獻規(guī)模帶來的雜質(zhì)和代表性偏差,抑或是關(guān)注已有的文獻集中的非領域相關(guān)文獻清洗。同時,本文的研究結(jié)論也有助于人們在接觸到情報分析結(jié)果時,更有依據(jù)地判斷其可靠性。例如,作者排序這一任務對于文獻集規(guī)模要求極高,遇到這類報告時,有必要追尋其文獻集是否全面。
由于實驗工作的復雜性和數(shù)據(jù)展現(xiàn)的局限性,本文只針對了一個領域開展了實驗。實際上,決定文獻集規(guī)模可靠性的主要因素,在于各分析任務場景下,文獻在相應元素上分布的“頭部聚集效應”和“長尾效應”。盡管文獻在各種元素上均符合冪律分布規(guī)律,但不同元素的總體數(shù)量(如國家很少、關(guān)鍵詞很多)和文獻累積成本(如關(guān)鍵詞上累積文獻容易、作者上累積文獻困難),決定了文獻在該元素上的頭部聚集和長尾程度,進一步?jīng)Q定了用多大規(guī)模的子文獻集能夠擬合全貌。此外,不同領域下文獻集在同一元素上的分布規(guī)律存在相似性,例如,在任何領域中,文獻在作者上分布的頭部聚集效應均不如在國家上分布的頭部聚集效應明顯。因此,可以推斷,本文的結(jié)論在一定程度上存在普適性。在后續(xù)的研究中,本課題組將進一步探索領域文獻集構(gòu)造的“準確性”問題。