楊思洛 程愛娟 馮 雅(湘潭大學(xué)公共管理學(xué)院 湖南湘潭 411105)
·綜述·
大數(shù)據(jù)環(huán)境下信息檢索與文獻(xiàn)計(jì)量的共生發(fā)展綜述*
楊思洛程愛娟馮雅
(湘潭大學(xué)公共管理學(xué)院 湖南湘潭411105)
文章通過梳理信息檢索和文獻(xiàn)計(jì)量相關(guān)理論與應(yīng)用研究成果,對(duì)兩者的發(fā)展歷程、相互關(guān)系和共生趨勢(shì)進(jìn)行歸納和總結(jié)。指出文獻(xiàn)計(jì)量輔助信息檢索,信息檢索服務(wù)文獻(xiàn)計(jì)量,兩者有內(nèi)容的并行發(fā)展、工具的整合發(fā)展以及實(shí)踐的融合發(fā)展三方面的共生發(fā)展趨勢(shì)。
大數(shù)據(jù)信息檢索文獻(xiàn)計(jì)量共生發(fā)展
〔引用本文格式〕楊思洛,程愛娟,馮雅.大數(shù)據(jù)環(huán)境下信息檢索與文獻(xiàn)計(jì)量的共生發(fā)展綜述[J].圖書館,2016(8):68-73, 90
共生又叫互利共生,原指兩種不同生物之間所形成的緊密互利關(guān)系[1]。信息檢索和文獻(xiàn)計(jì)量作為情報(bào)學(xué)的兩大分支,由于信息檢索偏向于根據(jù)用戶的需要找出有關(guān)信息的過程和技術(shù);文獻(xiàn)計(jì)量偏向于文獻(xiàn)的評(píng)估和定量分析,目標(biāo)的差異使人們忽略了兩者之間的聯(lián)系。從表面上看,兩者之間除了同屬于情報(bào)學(xué)之外聯(lián)系甚少,但透過表面探究實(shí)質(zhì)時(shí),會(huì)發(fā)現(xiàn)其實(shí)兩者是互利的,有著非生物意義上的共生關(guān)系[2]。
早在1987年,在比利時(shí)林堡大學(xué)舉行的第一屆ISSI會(huì)議,就以“International Conference on Bibliometrics and Theoretical Aspects of Information Retrieval”為主題,試圖將信息檢索與文獻(xiàn)計(jì)量相結(jié)合[3]。但是這一提議逐漸被人們淡忘,將兩者結(jié)合起來的研究也為之甚少。隨著計(jì)算機(jī)、網(wǎng)絡(luò)技術(shù)的發(fā)展,各種信息檢索、文獻(xiàn)計(jì)量工具的完善,以及在大數(shù)據(jù)環(huán)境下,高效率獲取信息的迫切需要,人們認(rèn)識(shí)到將信息檢索與文獻(xiàn)計(jì)量相結(jié)合能達(dá)到更好效果。因此,將兩者結(jié)合的主題被重新討論。于2013年7月在奧地利維也納召開的第14屆ISSI會(huì)議上,開展了兩者結(jié)合的研討會(huì),旨在討論怎樣運(yùn)用計(jì)量學(xué)方法來完善檢索,提高人們對(duì)計(jì)量與檢索聯(lián)系的認(rèn)識(shí),并為檢索創(chuàng)造更加科學(xué)的模型打下基礎(chǔ)[4]。隨后,2014年3月在荷蘭阿姆斯特丹開展了主題為“Bibliometric-enhanced Information Retrieval”的第36 次ECIR(European Conference on Information Retrieval)會(huì)議,提出:隨著數(shù)字化的發(fā)展,傳統(tǒng)檢索已不能很好的滿足用戶的需求,因?yàn)樵诰W(wǎng)絡(luò)環(huán)境下,檢索結(jié)果龐大并且復(fù)雜,因此,應(yīng)該把兩者相結(jié)合,在計(jì)量的基礎(chǔ)上優(yōu)化檢索[5]。
隨著大數(shù)據(jù)時(shí)代的到來,美國(guó)政策的戰(zhàn)略層面提出:要大力推動(dòng)與大數(shù)據(jù)相關(guān)的信息收集、組織,改善與大數(shù)據(jù)相關(guān)的分析工具及技術(shù),提高提取、分析信息的能力[6]。我國(guó)“十三五規(guī)劃”中也將大數(shù)據(jù)上升到國(guó)家戰(zhàn)略層面[7]。為了在價(jià)值密度較低的海量數(shù)據(jù)中挖掘出有意義的信息,需要信息檢索,也需要文獻(xiàn)計(jì)量與評(píng)價(jià),更需要兩者的互利共生發(fā)展。一方面,在互利關(guān)系下兩者的相互影響和應(yīng)用程度需要提高;另一方面,在互利關(guān)系下兩者各自的發(fā)展需要有所突破。
信息檢索與文獻(xiàn)計(jì)量存在著密切聯(lián)系。首先,兩者在發(fā)展歷程上契合度較高。信息檢索起源于19世紀(jì)下半葉的圖書館參考咨詢和文摘索引工作,并在20世紀(jì)50年代,隨著計(jì)算機(jī)技術(shù)的發(fā)展,逐漸成為獨(dú)立領(lǐng)域[8]。文獻(xiàn)計(jì)量學(xué)的產(chǎn)生可回溯到20世紀(jì)初,并在20世紀(jì)60年代成為專門領(lǐng)域。其次,兩者研究對(duì)象都是文獻(xiàn)信息,在起源上同源,同屬于情報(bào)學(xué)。在1981年White和Griffith通過作者共被引分析可視化學(xué)科結(jié)構(gòu),把情報(bào)學(xué)分為了信息檢索與文獻(xiàn)計(jì)量?jī)纱蠼M成部分[9]。而在后續(xù)對(duì)情報(bào)學(xué)更新時(shí)期的研究中,情報(bào)學(xué)領(lǐng)域分為計(jì)量與信息檢索兩大塊得到了進(jìn)一步論證[10]。第三,研究?jī)烧叩南嚓P(guān)人員存在交叉現(xiàn)象。在1998年White 和 McCain對(duì)24年間情報(bào)學(xué)領(lǐng)域?qū)W者的可視化動(dòng)態(tài)分析中得出:總體上,在20世紀(jì)70年代研究信息檢索的學(xué)者高于研究計(jì)量的學(xué)者,然而研究信息檢索的學(xué)者在向計(jì)量領(lǐng)域偏移,到20世紀(jì)90年代,兩者的研究人數(shù)達(dá)到均衡狀態(tài)[10]。最近的研究表明,文獻(xiàn)計(jì)量研究隊(duì)伍有進(jìn)一步擴(kuò)大趨勢(shì)[11]。
然而,信息檢索與文獻(xiàn)計(jì)量也存在顯著差異:在受眾方面,信息檢索面向的使用互聯(lián)網(wǎng)、圖書情報(bào)檔案信息系統(tǒng)等的廣大用戶,而文獻(xiàn)計(jì)量針對(duì)學(xué)術(shù)人員、專門機(jī)構(gòu)或政府部門的管理者或決策者;在目標(biāo)上,信息檢索是特定用戶通過一定的策略盡可能高效地在廣大的知識(shí)空間中找出與要求相匹配的信息,而文獻(xiàn)計(jì)量重在敏銳并精確地評(píng)價(jià)或描繪出某一知識(shí)單元或領(lǐng)域的狀態(tài);在規(guī)模上,信息檢索不僅用于學(xué)術(shù)交流和文獻(xiàn)書目數(shù)據(jù)庫,還與智能化、商業(yè)信息、圖書館目錄、搜索引擎等相關(guān),而文獻(xiàn)計(jì)量多與期刊論文管理與評(píng)價(jià)以及網(wǎng)絡(luò)中的學(xué)術(shù)交流相關(guān);在教育途徑上,信息檢索在計(jì)算機(jī)科學(xué)、I-Schools或者信息學(xué)院等都有涉及,甚至作為全校性的信息素養(yǎng)課程出現(xiàn),而文獻(xiàn)計(jì)量則集中在圖書情報(bào)、科技政策與管理等專業(yè)課程,在大學(xué)課程中較少涉及[12]。
檢索的過程實(shí)際上是文獻(xiàn)信息相關(guān)性匹配的過程,單獨(dú)的信息檢索存在著局限,而文獻(xiàn)計(jì)量能對(duì)信息檢索提供較好的輔助。一方面,文獻(xiàn)計(jì)量中某些定律的運(yùn)用能在很大程度上彌補(bǔ)信息檢索的局限。另一方面,在大數(shù)據(jù)環(huán)境下,用戶面對(duì)巨大的信息量,會(huì)出現(xiàn)一種茫然的狀態(tài),而文獻(xiàn)計(jì)量能夠在一定程度上對(duì)用戶在檢索、選擇信息時(shí)予以指示。
3.1檢索原理及局限
結(jié)合已有研究[13, 14],得到信息檢索原理及過程圖,如圖1所示。信息檢索包括信息存儲(chǔ)與用戶檢索兩大過程。在存儲(chǔ)過程中,首先要分析文獻(xiàn)信息,找出文獻(xiàn)信息特征,著錄標(biāo)引,再形成文獻(xiàn)信息標(biāo)識(shí)即檢索點(diǎn),最后將這些標(biāo)識(shí)和檢索點(diǎn)輸入檢索系統(tǒng)。而在檢索過程中,用戶首先分析需求,形成檢索主題,然后構(gòu)建檢索式(檢索詞),計(jì)算機(jī)將用戶輸入的檢索詞和系統(tǒng)內(nèi)容進(jìn)行匹配,得出檢索結(jié)果。在這一過程中,存在許多缺陷。首先,在構(gòu)建檢索式方面,用戶如果不能很準(zhǔn)確地描述要檢索的問題,在分析問題、形成提問、選用檢索詞等環(huán)節(jié)都會(huì)受到表達(dá)能力不足的影響,如從用戶需求到提問是一個(gè)內(nèi)容相關(guān)過程,用戶受表達(dá)能力不足的影響,不能很好地使提問覆蓋整個(gè)需求;從用戶提問到形成檢索概念是一個(gè)主題相關(guān)過程,用戶受表達(dá)能力限制,不能很好地使形成的檢索概念概括提問;從檢索概念到確定檢索詞是一個(gè)概念相關(guān)過程,用戶受表達(dá)能力的影響,可能使檢索詞不能很好地詮釋概念。其次,在檢索邏輯方面,信息檢索存在著二值(是與否)相關(guān)性判斷的局限,如在輸入檢索詞到檢索出文獻(xiàn)這一過程中,計(jì)算機(jī)就對(duì)用戶輸入的檢索詞與系統(tǒng)中存在的相關(guān)文獻(xiàn)信息標(biāo)識(shí)進(jìn)行了二值相關(guān)性判斷,最終輸出判斷結(jié)論為“是”的內(nèi)容,這種機(jī)器得出的相關(guān)性判斷結(jié)果并不具備能動(dòng)性,可能會(huì)輸出大量與用戶需求不符的結(jié)果或者輸出的結(jié)果與用戶表達(dá)的意思不符,因此查全率、查準(zhǔn)率得不到保障,不能滿足用戶的需求。
圖1 信息檢索原理及過程
3.2文獻(xiàn)計(jì)量對(duì)信息檢索的輔助
3.2.1確定檢索點(diǎn)
在大數(shù)據(jù)環(huán)境下,海量信息的有序化存儲(chǔ)以及合理的歸類是信息得以傳播利用并發(fā)揮價(jià)值的重要前提,而這種有序化存儲(chǔ)以及合理的歸類在某種程度上要借助文獻(xiàn)計(jì)量的相關(guān)知識(shí)。在信息檢索過程中,文獻(xiàn)信息標(biāo)識(shí)即檢索點(diǎn)選取是否恰當(dāng),不僅關(guān)系著一篇文章在海量信息中是否被分配到了合理的位置,并且關(guān)系著該文章能否被用戶快速檢出。那么對(duì)文獻(xiàn)進(jìn)行標(biāo)引時(shí),怎么選取合適的詞呢?齊普夫定律在這里就起到了很好的作用。將一篇文章錄入系統(tǒng)后,根據(jù)該定律:文章中包含的N個(gè)詞按照其頻率遞減順序排列,并用自然數(shù)從1到L給詞編號(hào),若f表示某詞頻次,r表示該詞的序號(hào),則f·r=C(C為常數(shù)),就能很好地確定中頻詞。而研究表明,特定學(xué)者的用詞與所關(guān)注的學(xué)科領(lǐng)域有很大關(guān)系,而該領(lǐng)域?qū)W者所關(guān)注的學(xué)科范圍中的詞,絕大部分集中在中頻詞的后段和低頻詞的前段,大多為長(zhǎng)詞[15]。如果根據(jù)齊普夫定律來取詞,就減少詞表取詞的盲目性,提高取詞效率。并且在大數(shù)據(jù)環(huán)境下,根據(jù)該定律還可以實(shí)現(xiàn)對(duì)文章的自動(dòng)標(biāo)引,簡(jiǎn)化了信息存儲(chǔ)的過程。另外該定律對(duì)用戶挑選檢索詞有指導(dǎo)意義——避免利用高頻詞和低頻詞,選取中頻詞檢索。
3.2.2縮小檢索范圍
大數(shù)據(jù)環(huán)境下海量的信息使人在檢索時(shí)無從下手,同時(shí)價(jià)值量小的單個(gè)信息使人在研究問題時(shí)力不從心。而將文獻(xiàn)計(jì)量的相關(guān)規(guī)律運(yùn)用到信息檢索的過程中,可以在一定程度上緩解這一狀態(tài)。首先,根據(jù)布拉德福定律:將科技期刊按其刊載某學(xué)科專業(yè)論文的數(shù)量多少,以遞減順序排列,可以把期刊分區(qū)。各個(gè)區(qū)的文章數(shù)量相等,此時(shí)核心區(qū)、相關(guān)區(qū)、非相關(guān)區(qū)期刊數(shù)量成的關(guān)系。從而在檢索相關(guān)文獻(xiàn)時(shí),優(yōu)先選擇核心期刊進(jìn)行檢索,縮小檢索范圍,緩解面對(duì)海量文獻(xiàn)無從下手的狀態(tài)。其次,清楚文獻(xiàn)的老化規(guī)律。隨著時(shí)間的改變,大量的文獻(xiàn)由于種種原因,可能已不適合時(shí)代的需要。為了找到更新穎、更合適的信息,將文獻(xiàn)老化規(guī)律用來限定檢索年限,從而排除一些過時(shí)的或?qū)δ壳把芯績(jī)r(jià)值不大的內(nèi)容。最后,為了找到價(jià)值量較高的信息,還可以在檢索中對(duì)引用量進(jìn)行限定,從而提高檢索文獻(xiàn)的質(zhì)量;或者將加菲爾德創(chuàng)建的與以往傳統(tǒng)主題法不同的文獻(xiàn)檢索法——引文索引法運(yùn)用到檢索的過程中,充分利用其研發(fā)的引文數(shù)據(jù)庫,如SCI 、SSCI和A&HCI[16]。這種引文數(shù)據(jù)庫中錄入的數(shù)據(jù)能揭示學(xué)科發(fā)展過程,是追溯學(xué)科知識(shí)進(jìn)化的可靠依據(jù);并且這種引文索引體系便捷地組建了特定主題的參考文獻(xiàn)網(wǎng)絡(luò),便于用戶對(duì)所研究或感興趣領(lǐng)域文獻(xiàn)的獲??;另外,這種引文索引體系還能從文獻(xiàn)引證的角度評(píng)估文章的學(xué)術(shù)價(jià)值,綜合提高文獻(xiàn)檢索的效率與針對(duì)性。
3.2.3構(gòu)建檢索模型
在大數(shù)據(jù)環(huán)境下,面對(duì)海量信息,均衡檢索的查全率與查準(zhǔn)率是一個(gè)重要課題,因此對(duì)新檢索模型的構(gòu)建顯得十分必要。檢索實(shí)際上是一個(gè)相關(guān)性匹配的過程,而文獻(xiàn)是否相關(guān)的界限是模糊的。在完全相關(guān)文獻(xiàn)與完全不相關(guān)文獻(xiàn)之間還存在著大量的文獻(xiàn),這一部分文獻(xiàn)是否被采用往往取決于特定檢索要求的需要或者用戶的行為。為了更好地完成檢索任務(wù),必須根據(jù)需求調(diào)整檢索策略,構(gòu)建合理的檢索模型。而在檢索模型中添加“計(jì)量”成分,往往能達(dá)到較好的檢索效果。國(guó)外已有Gl?nzel[17]和Zitt[18]等進(jìn)行研究,并得出檢索模型:
其中,k≥0,m,n >0或m =n=0。這個(gè)模型包括兩個(gè)部分,第一部分是為了確保查準(zhǔn)率,利用核心期刊或核心作者等檢索到相關(guān)性高但查全率不高的文獻(xiàn),即公式中的。第二部分是為了提高查全率,在非核心期刊、非核心作者或與檢索目標(biāo)相關(guān)的領(lǐng)域等情況下查找文獻(xiàn),即公式中的,并且這一部分文獻(xiàn)在某些方面要與第一部分有聯(lián)系,即公式中的。此模型在某種程度上超越了傳統(tǒng)檢索,不僅能夠包括所有類型的檢索字段,如標(biāo)題、關(guān)鍵詞、期刊名稱、作者地址等,還能融入計(jì)量方法,如直接引用、共同引用、文獻(xiàn)耦合、閾值選定等等[18]。例如具體檢索式可設(shè)定如下[19]:UC1: Journal in WoS = BIOINFORMATICS…; UC2: Journal in MEDLINE = IN SILICO BIOLOGY…; UC3: Keywords in title = BIOINFORMATICS…; CC1: Records cited by UC1; CC2: Records citing UC1; CC3: thresholds Ti
得到的檢索公式為:
可通過調(diào)節(jié)CC3的閾值,最終得到較為理想的結(jié)果。
4.1文獻(xiàn)計(jì)量的發(fā)展
文獻(xiàn)計(jì)量學(xué)是以布拉德福、洛特卡、齊普夫?yàn)榛径?,定量統(tǒng)計(jì)各種文獻(xiàn)信息的學(xué)科[20]。隨著時(shí)代的發(fā)展,文獻(xiàn)計(jì)量已經(jīng)不僅僅停留在以篇、冊(cè)、本為單位的文獻(xiàn)單元的計(jì)量上,而開始深入到文獻(xiàn)的內(nèi)部對(duì)知識(shí)單元和文獻(xiàn)的相關(guān)信息進(jìn)行計(jì)量研究,如題名、主題詞、關(guān)鍵詞、詞頻、知識(shí)項(xiàng)、引文信息、著者、出版者、日期、語言、格式等[21]。為了滿足文獻(xiàn)計(jì)量不斷發(fā)展的要求,必須利用文獻(xiàn)檢索手段,更好地完成文獻(xiàn)計(jì)量任務(wù)。另外,近年來文獻(xiàn)計(jì)量不僅在自身領(lǐng)域內(nèi)取得了較大進(jìn)展,如在科學(xué)評(píng)價(jià)、學(xué)科結(jié)構(gòu)分析與可視化、科學(xué)交流等方面發(fā)揮重要作用,并隨著信息檢索技術(shù)、水平的提高,共同推動(dòng)了計(jì)量相關(guān)學(xué)科的研究與實(shí)踐進(jìn)展,如表1所示。文獻(xiàn)計(jì)量學(xué)是信息計(jì)量學(xué)發(fā)展的基礎(chǔ),也是科學(xué)計(jì)量學(xué)發(fā)展的基礎(chǔ),而信息計(jì)量學(xué)與科學(xué)計(jì)量學(xué),則是文獻(xiàn)計(jì)量學(xué)發(fā)展的方向[22]。隨著知識(shí)經(jīng)濟(jì)的不斷發(fā)展,在建設(shè)知識(shí)社會(huì)實(shí)際需求的拉動(dòng)下,在相關(guān)計(jì)量學(xué)進(jìn)一步發(fā)展的內(nèi)在需求下,根植于文獻(xiàn)、信息和科學(xué)計(jì)量學(xué)的知識(shí)計(jì)量學(xué)得到了發(fā)展。另外,伴隨著大數(shù)據(jù)時(shí)代的到來,引文分析無法衡量大量新型文獻(xiàn)產(chǎn)生的影響,例如 Twitter、Facebook 和博客等社交網(wǎng)絡(luò)中的文獻(xiàn),并且出現(xiàn)了學(xué)術(shù)成果新形式,如數(shù)據(jù)集、軟件工具、算法或分子結(jié)構(gòu)等,不容易甚至無法通過傳統(tǒng)計(jì)量指標(biāo)來分析[23]。替代計(jì)量學(xué)應(yīng)運(yùn)而生,在某種程度上它是文獻(xiàn)計(jì)量的一種補(bǔ)充。而這些計(jì)量學(xué)的發(fā)展都離不開信息檢索。
表1 相關(guān)計(jì)量學(xué)的產(chǎn)生
4.2信息檢索對(duì)文獻(xiàn)計(jì)量的服務(wù)
信息檢索對(duì)文獻(xiàn)計(jì)量學(xué)等相關(guān)計(jì)量學(xué)科的發(fā)展起著不可替代的作用,因?yàn)樵谟?jì)量過程中,完整、高效地獲取有組織的計(jì)量數(shù)據(jù),在很大程度上依賴于信息檢索。信息檢索包括信息存儲(chǔ)和檢索兩大過程,信息的存儲(chǔ)為計(jì)量工作提供了可靠的數(shù)據(jù)源,而各種檢索技術(shù)、工具、系統(tǒng)的完善,為計(jì)量工作提供了便捷的平臺(tái)。
4.2.1保障數(shù)據(jù)樣本源
信息檢索是進(jìn)行文獻(xiàn)計(jì)量研究的基礎(chǔ)[24]。文獻(xiàn)計(jì)量的前提是有大量數(shù)據(jù)或資料,因此數(shù)據(jù)或資料的可獲取性顯得十分重要;這種可獲取性不僅僅指“得到”,還要求數(shù)據(jù)或資料通過某種標(biāo)準(zhǔn)控制之后,呈現(xiàn)出具有代表性的內(nèi)容。進(jìn)入大數(shù)據(jù)時(shí)代,每天都有成千上萬的新文獻(xiàn)進(jìn)入信息空間,大量且單個(gè)價(jià)值密度較低的資料如果不能按一定的標(biāo)準(zhǔn)組織、分類、存儲(chǔ),通過文獻(xiàn)計(jì)量揭示其聯(lián)系以及規(guī)律就會(huì)導(dǎo)致獲取十分困難。如果在檢索的信息存儲(chǔ)過程中,對(duì)存入的內(nèi)容進(jìn)行了一系列標(biāo)準(zhǔn)化處理,如對(duì)存入的內(nèi)容進(jìn)行標(biāo)引、著錄等,并且對(duì)信息進(jìn)行保存管理,就可建立完善的查詢機(jī)制并為計(jì)量提供可靠的數(shù)據(jù)源。
4.2.2實(shí)現(xiàn)計(jì)量自動(dòng)化
在大數(shù)據(jù)環(huán)境下,面對(duì)大量、多樣、價(jià)值密度較低的文獻(xiàn)或資料,如果單純依靠人工對(duì)其進(jìn)行計(jì)量,效率低,質(zhì)量上也得不到保證,因此必須借助各種信息檢索平臺(tái)。而按一定標(biāo)準(zhǔn)存儲(chǔ)信息的檢索系統(tǒng)或數(shù)據(jù)庫中,首先,都有簡(jiǎn)單的計(jì)量功能,能夠按照某一字段,如主題、作者、機(jī)構(gòu)、來源期刊等對(duì)相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)(數(shù)量、年度分布等);其次,某些數(shù)據(jù)庫還提供對(duì)這些符合要求的資料進(jìn)行進(jìn)一步分析的功能,如通過引文,形成簡(jiǎn)單的該領(lǐng)域作者之間的引文關(guān)系圖,或針對(duì)單篇文章形成引文網(wǎng)絡(luò)(如知網(wǎng)中提供的“本文鏈接的文獻(xiàn)網(wǎng)絡(luò)圖示”)等。另外,在某些搜索引擎中也提供了文獻(xiàn)計(jì)量的功能,如Google Scholar中,就對(duì)引文有較完善的計(jì)量統(tǒng)計(jì),不僅可以查看引文年代分布圖、最新的引用數(shù)據(jù)(論文總被引量、h-index、i-10 index),還可以通過查看其他學(xué)者或?qū)W術(shù)合作伙伴研究成果的被引情況了解其研究進(jìn)展,并且這些數(shù)據(jù)會(huì)自動(dòng)更新。檢索系統(tǒng)、數(shù)據(jù)庫以及搜索引擎提供的這些功能,使計(jì)量向自動(dòng)化方向發(fā)展,滿足了普通用戶對(duì)文獻(xiàn)計(jì)量的要求。
4.2.3促進(jìn)計(jì)量學(xué)科發(fā)展
大數(shù)據(jù)環(huán)境下,用戶急需提高檢索效率,在此需求下檢索技術(shù)、手段、工具等都有了質(zhì)的飛躍,進(jìn)而在很大程度上促進(jìn)了文獻(xiàn)計(jì)量的發(fā)展。首先,檢索系統(tǒng)的更新與完善使檢索結(jié)果能以不同的形式呈現(xiàn)在用戶面前,如知網(wǎng)可將文獻(xiàn)信息以endnote等格式導(dǎo)出,再直接導(dǎo)入文獻(xiàn)計(jì)量分析工具中,如SATI等,從而進(jìn)行關(guān)鍵詞抽取,為下一步的聚類、可視化打下基礎(chǔ),促使文獻(xiàn)計(jì)量向可視化方向發(fā)展。而可視化圖譜等方法揭示了研究領(lǐng)域發(fā)展的歷程、現(xiàn)狀、前沿以及發(fā)展趨勢(shì),擴(kuò)大文獻(xiàn)計(jì)量學(xué)的應(yīng)用范圍,對(duì)學(xué)科發(fā)展起著促進(jìn)作用。其次,在大數(shù)據(jù)環(huán)境下,計(jì)算機(jī)成為信息傳遞的重要媒介,這種利用互聯(lián)網(wǎng)進(jìn)行檢索獲取信息的趨勢(shì),促使文獻(xiàn)計(jì)量在網(wǎng)絡(luò)環(huán)境下開辟新領(lǐng)域,出現(xiàn)網(wǎng)絡(luò)化趨勢(shì)[25]。早在20世紀(jì)90年代末,谷歌和其他一些先驅(qū)者從Pinski 和Narin對(duì)網(wǎng)絡(luò)期刊“影響權(quán)重(Influence Weights)”這一研究工作中受到啟迪,看到了關(guān)鍵性文章鏈接獲取的重要性,推出超鏈接[26],借鑒引文分析的理論與方法,結(jié)合鏈接自身的特點(diǎn),對(duì)網(wǎng)絡(luò)上的文獻(xiàn)進(jìn)行分析,形成網(wǎng)頁鏈接圖譜等等,促使文獻(xiàn)計(jì)量學(xué)向網(wǎng)絡(luò)信息計(jì)量學(xué)方向發(fā)展。另外,隨著社交網(wǎng)絡(luò)時(shí)代的到來,文獻(xiàn)計(jì)量學(xué)有向Altmetrics發(fā)展的趨勢(shì),各類檢索系統(tǒng)中存在的統(tǒng)計(jì)數(shù)據(jù)如瀏覽量、下載量、鏈接數(shù)、推薦數(shù)、評(píng)級(jí)等都成為了統(tǒng)計(jì)指標(biāo),因此,各類檢索系統(tǒng)中這些數(shù)據(jù)的完善與保障在一定程度上也推動(dòng)了計(jì)量學(xué)學(xué)科的發(fā)展。
在大數(shù)據(jù)環(huán)境下,信息檢索和文獻(xiàn)計(jì)量都面臨著挑戰(zhàn),為了更好地滿足用戶的要求,必須將兩者結(jié)合起來,在互利共生的條件下實(shí)現(xiàn)并行發(fā)展、整合發(fā)展、融合發(fā)展。
5.1內(nèi)容的并行發(fā)展
在大數(shù)據(jù)時(shí)代,作為兩個(gè)獨(dú)立的領(lǐng)域,信息檢索和文獻(xiàn)計(jì)量必須在互利的基礎(chǔ)上,實(shí)現(xiàn)各自的突破。一方面,從文獻(xiàn)計(jì)量的角度來說,文獻(xiàn)計(jì)量符合新時(shí)代的要求,發(fā)展基于語義的文獻(xiàn)計(jì)量方法及應(yīng)用;并與面向基于學(xué)術(shù)信息交流和利用全過程的計(jì)量(包括瀏覽、下載、收錄、鏈接、評(píng)論、引用等)——替代計(jì)量結(jié)合起來,彌補(bǔ)文獻(xiàn)計(jì)量用于科研評(píng)價(jià)時(shí)滯長(zhǎng)等缺陷[27],從而實(shí)現(xiàn)短期、中期、長(zhǎng)期全時(shí)段的計(jì)量。另一方面,從信息檢索的角度來說,檢索技術(shù)將加速其智能化的發(fā)展。在利用相關(guān)文獻(xiàn)計(jì)量成果、定律的基礎(chǔ)上,實(shí)現(xiàn)以下突破:①提高信息自然語言的處理能力,使檢索系統(tǒng)對(duì)自然語言的理解提升到語義甚至語用階段。②對(duì)非結(jié)構(gòu)化的信息實(shí)現(xiàn)自動(dòng)標(biāo)引,信息檢索技術(shù)與智能化技術(shù)達(dá)到較高耦合水平。③實(shí)現(xiàn)相關(guān)領(lǐng)域引用內(nèi)容的檢索,從而為用戶提供與引文最相關(guān)、最直接的信息,提高檢索效率。④根據(jù)不同身份的用戶,能夠在不同程度上對(duì)提問進(jìn)行定位,提供滿足不同層次需求的檢索結(jié)果。⑤提供多種系統(tǒng)操作環(huán)境,在不同的環(huán)境下為用戶提供個(gè)性化的檢索。如在個(gè)人賬戶登錄狀態(tài)下,系統(tǒng)可分析該用戶的檢索記錄,得出用戶的偏好,從而提供個(gè)性化服務(wù);在集團(tuán)登錄狀態(tài)下,可為用戶提供該集團(tuán)信息的使用偏好,從而對(duì)用戶選取信息提供參考。
然而兩者的各自發(fā)展并不是獨(dú)立的,它們之間有著緊密聯(lián)系。文獻(xiàn)計(jì)量的新發(fā)展——替代計(jì)量中各種指標(biāo)值是檢索系統(tǒng)為用戶提供個(gè)性化檢索、推薦的有力參考證明,通過分析各用戶替代計(jì)量指標(biāo)值,檢索系統(tǒng)可以向用戶進(jìn)行精確推薦,提供相關(guān)性高的資料,定位用戶。另外,實(shí)現(xiàn)相關(guān)領(lǐng)域的引用內(nèi)容檢索要求信息檢索與文獻(xiàn)計(jì)量密切結(jié)合。而檢索系統(tǒng)的完善、技術(shù)的突破會(huì)提高各替代計(jì)量指標(biāo)值的可靠性,替代計(jì)量的發(fā)展在一定程度上也依賴于信息檢索的進(jìn)展。
5.2工具的整合發(fā)展
面對(duì)日益復(fù)雜、冗余的信息,為了更快速、高效、便捷地獲取有用信息,信息檢索和文獻(xiàn)計(jì)量在工具上將會(huì)出現(xiàn)整合,信息檢索和文獻(xiàn)計(jì)量?jī)捎眯偷亩喙δ芄ぞ咴龆唷D壳耙呀?jīng)有部分?jǐn)?shù)據(jù)庫在一定程度上探索了檢索和計(jì)量功能。如《中國(guó)引文數(shù)據(jù)庫》可以對(duì)相關(guān)文獻(xiàn)、作者、機(jī)構(gòu)、期刊、基金等進(jìn)行查找,滿足檢索要求;另外它收錄了中國(guó)學(xué)術(shù)期刊(光盤版)電子雜志社出版的所有源數(shù)據(jù)產(chǎn)品的參考文獻(xiàn),通過其“作者引證報(bào)告”、“數(shù)據(jù)分析器”等版塊,揭示各種類型文獻(xiàn)之間的相互引證關(guān)系,研究熱點(diǎn)和趨勢(shì),機(jī)構(gòu)學(xué)術(shù)產(chǎn)出和學(xué)術(shù)影響力等等,提供新的計(jì)量分析功能。這種信息檢索與文獻(xiàn)計(jì)量整合型工具在很大程度上促進(jìn)了大數(shù)據(jù)環(huán)境下文獻(xiàn)信息的高效利用,因此,整合發(fā)展將是未來的發(fā)展趨勢(shì);并且工具的應(yīng)用將突破語言的限制,實(shí)現(xiàn)多語言的統(tǒng)一檢索和計(jì)量,這些也要求多學(xué)科領(lǐng)域的共同努力,乃至全球協(xié)作。
5.3實(shí)踐的融合發(fā)展
圖2 信息檢索與文獻(xiàn)計(jì)量的實(shí)踐融合流程
在大數(shù)據(jù)環(huán)境下,信息檢索與文獻(xiàn)計(jì)量以用戶需求為中心,在實(shí)踐上融合從而謀求共生發(fā)展,具體有兩種方式:融合文獻(xiàn)計(jì)量的信息檢索實(shí)踐、融合信息檢索的文獻(xiàn)計(jì)量實(shí)踐,如圖2信息檢索與文獻(xiàn)計(jì)量的實(shí)踐融合流程所示[26]。從融合文獻(xiàn)計(jì)量的信息檢索實(shí)踐角度來說:當(dāng)用戶有信息需求,并根據(jù)需求列出系列檢索提問后,進(jìn)入信息檢索循環(huán),根據(jù)了解到的內(nèi)容補(bǔ)充或調(diào)整信息檢索循環(huán)中的原始提問或檢索提問,再利用文獻(xiàn)計(jì)量的某些理論、方法,對(duì)檢索結(jié)果進(jìn)行篩選、可視化,即圖2中的②、③,在這一過程中,對(duì)問題的認(rèn)識(shí)程度可能會(huì)上升到另一個(gè)層面,在新的認(rèn)識(shí)高度下對(duì)問題的理解將更加透徹,從而進(jìn)一步補(bǔ)充或調(diào)整原始提問,即圖2中的①。這樣就可以將計(jì)量成分融入檢索中,讓基于計(jì)量的“后驗(yàn)”結(jié)果降低信息檢索“先驗(yàn)”結(jié)果下,用戶自身對(duì)問題表達(dá)能力不足或明顯信息選擇偏向形成的干擾,從而完善檢索循環(huán)過程,并將檢索結(jié)果反饋給用戶。另外,當(dāng)用戶有了檢索需求,也可以先利用某些數(shù)據(jù)庫中的圖表查詢等功能,查看相關(guān)領(lǐng)域已有的計(jì)量分析的可視化結(jié)果,從而了解該領(lǐng)域的動(dòng)態(tài),認(rèn)識(shí)各個(gè)研究方向之間的關(guān)系[28];或充分利用文獻(xiàn)聚類等功能,宏觀上瀏覽文獻(xiàn),找到感興趣的內(nèi)容或補(bǔ)充檢索提問[29],然后再進(jìn)行檢索循環(huán)。從融合信息檢索的文獻(xiàn)計(jì)量實(shí)踐的角度來說:文獻(xiàn)計(jì)量數(shù)據(jù)樣本的獲取、結(jié)果的精煉等都離不開信息檢索,在文獻(xiàn)計(jì)量工作展開之前要進(jìn)行信息檢索循環(huán),并且,在檢索不斷深入的過程中,用戶對(duì)需要計(jì)量的領(lǐng)域可能有更深、更新的理解,從而為文獻(xiàn)計(jì)量中提煉領(lǐng)域、擴(kuò)展目標(biāo)等服務(wù),即圖2中的④,通過檢索到再計(jì)量,更新該領(lǐng)域已有的計(jì)量結(jié)果,再將結(jié)果反饋給用戶,使用戶明確新動(dòng)態(tài)、新趨勢(shì)。在這一系列實(shí)踐過程中,囊括了信息檢索循環(huán)與文獻(xiàn)計(jì)量循環(huán),形成了檢索——計(jì)量混合應(yīng)用,將計(jì)量結(jié)果融入檢索中,使實(shí)踐中對(duì)目標(biāo)的描述有了除主觀因素以外的客觀技術(shù)支撐,讓檢索建立在大量相關(guān)專業(yè)人士研究結(jié)論的基礎(chǔ)之上,在實(shí)踐中充分發(fā)揮文獻(xiàn)計(jì)量的映射作用,并且通過信息檢索調(diào)整計(jì)量的范圍、目標(biāo)等,使計(jì)量與檢索在融合中交替進(jìn)行,從而更好地滿足用戶期望,促進(jìn)信息檢索與文獻(xiàn)計(jì)量的融合發(fā)展。
(來稿時(shí)間:2016年3月)
1. 共生[EB/OL]. [2015-12-20]. http://baike.haosou.com/doc/ 1265769-1338499.html
2. Wolfram D. The symbiotic relationship between information retrieval and informetrics[J]. Scientometrics, 2015, 102(3):2201-2214
3. ISSI[EB/OL]. [2015-10-21].http://www.issi-society.org/ past.html
4. ISSI 2013[EB/OL]. [2015-10-21]. http://www.issi2013.org/ work.html
5. BIR 2014 : Bibliometric-enhanced Information Retrieval [EB/OL]. [2015-10-21].http://www.wikicfp.com/cfp/servlet/event. showcfp?eventid=34006
6. 賽迪智庫軟件與信息服務(wù)研究所. 美國(guó)將發(fā)展大數(shù)據(jù)提升到戰(zhàn)略層面[N]. 中國(guó)電子報(bào),2012-07-17(3)
7. 中共中央十三五規(guī)劃建議(全文) [EB/OL]. [2015-12-20]. http://news.ifeng.com/a/20151103/46094489_0.shtml
8. 賴茂生,趙丹群,韓圣龍,等.計(jì)算機(jī)情報(bào)檢索[M].北京:北京大學(xué)出版社,2006:4-17
9. White H D, Griffith B C. Author co-citation: A literature measure of intellectual structure[J]. Journal of the American Society for Information Science,1981, 32(3):163-171
10. Howard D W, Katherine W M. Visualizing a Discipline: An Author Co-Citation Analysis of Information Science, 1972-1995[J]. Journal of the American Society for Information Science,1998, 49(4):327-355
11. Zhao D, Strotmann A. The knowledge base and research front of information science 2006-2010: An author cocitation and bibliographic coupling analysis[J]. Journal of the Association for Information Science and Technology, 2014, 65(5):995-1006
12. Mayr P, Scharnhorst A. Combining bibliometrics and information retrieval: preface[J]. Scientometrics, 2015, 102(3): 2191-2192
13. 潘萍. 基于網(wǎng)絡(luò)環(huán)境的信息檢索策略[J]. 現(xiàn)代電子技術(shù),2007(4):161-164
14. 袁林.信息檢索[EB/OL]. [2015-11-14].http://wenku.baidu. com/view/0f02354dcf84b9d528ea7a24.html
15. 楊波,閻素蘭. 齊普夫定律的漢語適用性研究及其在自動(dòng)標(biāo)引中的應(yīng)用[J]. 情報(bào)理論與實(shí)踐,2004(3):252-255
16. 汪滬雙. 論引文索引在信息檢索中的重要性[J]. 大學(xué)圖書情報(bào)學(xué)刊,2005(5):86-87
17. Zitt M, Bassecoulard E. Delineating complex scientific fields by hybrid lexical-citation method: An application to nanoscience[J]. Information Processing and Management, 2006, 42 (6):1513-1531
18. Gl?nzel W. Bibliometrics-aided retrieval: where information retrieval meets scientometrics[J]. Scientometrics, 2015,102(3):2215-2222
19. Gl?nzel W, Janssens F, Thijs B. A comparative analysis of publication activity and citation impact based on the core literature in bioinformatics[J]. Scientometrics, 2009, 79(1):109-129
20. 顧立平. 數(shù)據(jù)級(jí)別計(jì)量——概念辨析與實(shí)踐進(jìn)展[J].中國(guó)圖書館學(xué)報(bào),2015(2):56-71
21. 邱均平. 信息計(jì)量學(xué)(十) 第十講 計(jì)算機(jī)輔助文獻(xiàn)信息計(jì)量分析方法與工具[J]. 情報(bào)理論與實(shí)踐,2001(4):316-320
22. 邱均平. 網(wǎng)絡(luò)信息計(jì)量學(xué)導(dǎo)論[J].“國(guó)立”成功大學(xué)圖書館館刊, 2007(16):15-23
23. National Information Standard Organization. NISO to develop standards and recommended practices for Altmetrics[EB/ OL]. [2015-12-02]. http://www.niso.org/news/pr/View?item_key
24. Mayr P, Scharnhorst A. Scientometrics and information retrieval: weak-links revitalized[J]. Scientometrics, 2015, 102(3):2193-2199
25. 范全青,郭維真,鳳元杰. 我國(guó)文獻(xiàn)計(jì)量學(xué)研究30年之發(fā)展[J]. 情報(bào)資料工作,2009(3):30-33, 60
26.Zitt M. Meso-level retrieval: IR-bibliometrics interplay and hybrid citation-words methods in scientific fields delineation[J]. Scientometrics, 2015, 102(3): 2223-2245
27. 楊思洛,程愛娟. 社交網(wǎng)絡(luò)環(huán)境下的計(jì)量學(xué):Altmetrics研究進(jìn)展綜述[J].情報(bào)資料工作,2015(4):33-37
28. 廖勝姣. 知識(shí)圖譜在圖書館中的應(yīng)用[J]. 嘉興學(xué)院學(xué)報(bào),2011(5):124-127
29. 蘇沖. 基于最大頻繁項(xiàng)集的搜索引擎查詢結(jié)果聚類方法[D]. 哈爾濱:哈爾濱工業(yè)大學(xué)碩士論文,2009
The Symbiotic Development Review of Information Retrieval and Bibliometrics in Big Data Environment
Yang SiluoCheng AijuanFeng Ya
( Public Management School of Xiangtan University )
〕In this paper, by analyzing the theoretical and applied research results of information retrieval and bibliometrics, the development history, the relationship and the symbiotic trend of the two are summarized. Conclusion show that bibliometrics can assist information retrieval, information retrieval can serve bibliometrics, and from the content, tool and practice three aspects information retrieval and bibliometrics have symbiotic development trend.
〕Big dataInformation retrievalBibliometricsSymbiotic development
·綜述·
G350
* 本文系全國(guó)優(yōu)博論文作者專項(xiàng)資助項(xiàng)目“網(wǎng)絡(luò)環(huán)境下學(xué)者合著與引證行為規(guī)律研究”(項(xiàng)目編號(hào):2014094)階段性成果。
楊思洛(1979-),男,湘潭大學(xué)公共管理學(xué)院副教授,研究方向:網(wǎng)絡(luò)信息資源管理;程愛娟(1991-),女,湘潭大學(xué)公共管理學(xué)院碩士生,研究方向:圖書館學(xué);馮雅(1993-),女,湘潭大學(xué)公共管理學(xué)院碩士生,研究方向:網(wǎng)絡(luò)信息資源管理。