吳志榮
(上海師范大學(xué) 圖書館,上海200234)
進(jìn)入2012年,大數(shù)據(jù)(big data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并認(rèn)為大數(shù)據(jù)以及如何應(yīng)對(duì)大數(shù)據(jù)已經(jīng)成為當(dāng)代社會(huì)發(fā)展中的重大事件。哈佛大學(xué)社會(huì)學(xué)教授加里·金說(shuō):“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程,無(wú)論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開(kāi)始這種進(jìn)程?!?012年3月,美國(guó)奧巴馬政府推出“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”[1],標(biāo)志著大數(shù)據(jù)研究進(jìn)入全球性發(fā)展階段。可以說(shuō),人類社會(huì)進(jìn)入了“大數(shù)據(jù)時(shí)代”。
一般來(lái)說(shuō),大數(shù)據(jù)是指各行業(yè)或各部門產(chǎn)生的業(yè)務(wù)數(shù)據(jù),文獻(xiàn)信息并不屬于一般意義上的大數(shù)據(jù),然而,文獻(xiàn)信息作為社會(huì)重要的信息源,必然會(huì)受到時(shí)代發(fā)展的影響,而“大數(shù)據(jù)”這樣的時(shí)代對(duì)其的影響更大,因?yàn)榇髷?shù)據(jù)時(shí)代的到來(lái)與自動(dòng)化技術(shù)的普及和水平的提高,互聯(lián)網(wǎng)通信的發(fā)達(dá)密切相關(guān),而這兩方面的發(fā)展對(duì)文獻(xiàn)信息的產(chǎn)生同樣有著強(qiáng)大的推動(dòng)作用。例如,我國(guó)出版的圖書數(shù)量1999年是141831種(包括重版、重印),2009年則達(dá)到301719種,整整翻了一倍還多,2011年這個(gè)數(shù)字超過(guò)了37萬(wàn)種。如何從這樣龐大數(shù)量的圖書中尋找出所需的圖書?如何從數(shù)量更為龐大的、各種渠道產(chǎn)生的、各種載體的信息載體中尋找出所需要的文獻(xiàn)?成為當(dāng)代社會(huì)的新課題。
因此,可以把文獻(xiàn)信息視為是一種“類大數(shù)據(jù)”,推動(dòng)對(duì)其的采集、組織、分析、決策等處理技術(shù)的進(jìn)步是大數(shù)據(jù)時(shí)代大數(shù)據(jù)處理的重要組成部分?!拔墨I(xiàn)發(fā)現(xiàn)”理論與方法的提出即源于這樣的思想。
本文提出并闡述“文獻(xiàn)發(fā)現(xiàn)”的理論及其現(xiàn)實(shí)意義,構(gòu)建“文獻(xiàn)發(fā)現(xiàn)”的方法體系,并以學(xué)術(shù)文獻(xiàn)為例對(duì)“文獻(xiàn)發(fā)現(xiàn)”作進(jìn)一步的闡發(fā)。
由于采集和保存有價(jià)值的文獻(xiàn)資源關(guān)乎人類社會(huì)文明的傳承,因此,毋庸置疑,“文獻(xiàn)發(fā)現(xiàn)”是大數(shù)據(jù)時(shí)代的重要命題。
本文提出的“文獻(xiàn)發(fā)現(xiàn)”是指“在數(shù)量龐大的、且信息冗余和信息污染現(xiàn)象十分嚴(yán)重的信息載體中運(yùn)用科學(xué)的方法尋找出所需要(一般是有價(jià)值)的某類文獻(xiàn)”。
“文獻(xiàn)”即“用文字、圖形、符號(hào)、聲頻、視頻等技術(shù)手段記錄人類知識(shí)的一種載體”,或理解為“固化在一定物質(zhì)載體上的知識(shí)”,[2](P34)而這里的“信息載體”是社會(huì)信息的存在形態(tài)(“社會(huì)信息”是指“為了特定的目的產(chǎn)生、傳遞、交流并應(yīng)用于人類社會(huì)實(shí)踐活動(dòng),包括一切由人類創(chuàng)造的語(yǔ)言、符號(hào)和其他物質(zhì)載體表達(dá)和記錄的數(shù)據(jù)、消息、經(jīng)驗(yàn)、知識(shí)”[3](P7))。
信息載體包括了各種類型、各種體裁的文獻(xiàn),不僅包括了傳統(tǒng)的紙質(zhì)文獻(xiàn)、視聽(tīng)文獻(xiàn)、縮微文獻(xiàn),還包括數(shù)字文獻(xiàn);不僅包括了傳統(tǒng)的圖書、論文這樣的體裁,還包括了博客日志、PPT、Word文檔、電子郵件、網(wǎng)頁(yè)等新型體裁;同時(shí)還包括了大量無(wú)甚價(jià)值、甚至內(nèi)容謬誤的文獻(xiàn)(可以稱其為“偽文獻(xiàn)”)和嚴(yán)格意義上不屬于文獻(xiàn)范疇的信息載體,如大多數(shù)的短信、微博、通知、行業(yè)數(shù)據(jù)等(可以稱其為“非文獻(xiàn)”),因此其范圍遠(yuǎn)遠(yuǎn)大于傳統(tǒng)意義上的文獻(xiàn)集合。
以上對(duì)“文獻(xiàn)發(fā)現(xiàn)”的描述包含這樣幾層含義:首先,“文獻(xiàn)發(fā)現(xiàn)”是從數(shù)量龐大、類型多樣且信息冗余和污染現(xiàn)象十分嚴(yán)重的信息載體中尋找出有價(jià)值的某類文獻(xiàn),如果信息載體的數(shù)量不多,且信息冗余和污染現(xiàn)象不嚴(yán)重,查找和獲取文獻(xiàn)比較容易,“文獻(xiàn)發(fā)現(xiàn)”理論的提出是沒(méi)有什么意義的。其次,“文獻(xiàn)發(fā)現(xiàn)”尋找的是某類文獻(xiàn),而不是某種文獻(xiàn)。也就是說(shuō)所要尋找的文獻(xiàn)的外部特征(即題名、著者姓名等)事先是未知的。第三,文獻(xiàn)發(fā)現(xiàn)的目標(biāo)是文獻(xiàn),而不是“知識(shí)”或“數(shù)據(jù)”,因此,“文獻(xiàn)發(fā)現(xiàn)”與以往的“知識(shí)發(fā)現(xiàn)”和“數(shù)據(jù)挖掘”的概念是不同的。第四,由于尋找文獻(xiàn)的難度超過(guò)以往,需要重新構(gòu)建新的查尋文獻(xiàn)的方法體系。
因此,雖然“文獻(xiàn)發(fā)現(xiàn)”的最終目的也是要尋找出所需的文獻(xiàn),然而其概念與以往的“文獻(xiàn)檢索”相比是有著很大區(qū)別的?!拔墨I(xiàn)發(fā)現(xiàn)”要面對(duì)的是所有的信息載體,而“文獻(xiàn)檢索”所面對(duì)的信息載體基本上就是傳統(tǒng)意義上的文獻(xiàn)集合。由于“文獻(xiàn)發(fā)現(xiàn)”所面對(duì)的信息載體數(shù)量極其巨大,其中又包括了大量的偽文獻(xiàn)和非文獻(xiàn),尋找出所需要的文獻(xiàn)的難度大幅度提高,所使用的方法也因此需要重新構(gòu)建。
此外,“文獻(xiàn)發(fā)現(xiàn)”尋找的對(duì)象是某類文獻(xiàn),而“文獻(xiàn)檢索”尋找的對(duì)象除某類未知文獻(xiàn)外,還包括外部特征已知的某種文獻(xiàn)。
“文獻(xiàn)發(fā)現(xiàn)”與以往的“文獻(xiàn)開(kāi)發(fā)”概念也不同,“文獻(xiàn)開(kāi)發(fā)”是指專業(yè)人員對(duì)某些資料中有價(jià)值的內(nèi)容進(jìn)行挖掘,重新匯編成新的文獻(xiàn)。
“文獻(xiàn)發(fā)現(xiàn)”方法體系可以分為兩個(gè)層面:一是微觀層面的,也即傳統(tǒng)的文獻(xiàn)檢索方法,如分類檢索、主題檢索等對(duì)未知文獻(xiàn)的檢索方法。二是宏觀層面的,是對(duì)數(shù)量龐大的信息載體進(jìn)行分析、查找所需文獻(xiàn)的方法。宏觀層面的方法具體有這樣幾種:
(1)文獻(xiàn)計(jì)量法
這種方法采用數(shù)學(xué)計(jì)算、統(tǒng)計(jì)分析、引文分析等方法對(duì)文獻(xiàn)生產(chǎn)、老化和分布的特征和規(guī)律進(jìn)行研究,是一種定量的方法,目前來(lái)說(shuō),是文獻(xiàn)發(fā)現(xiàn)的重要方法。例如采用布拉德福定律、二八定律研究文獻(xiàn)的分布規(guī)律;采用指數(shù)增長(zhǎng)率和半衰期研究文獻(xiàn)的生長(zhǎng)和老化規(guī)律;根據(jù)文獻(xiàn)之間的互相引用分析文獻(xiàn)之間的關(guān)系,評(píng)價(jià)文獻(xiàn)的質(zhì)量;根據(jù)文獻(xiàn)的利用率和圖書銷售排行評(píng)價(jià)圖書質(zhì)量;等等。
其中的“引文分析法”是目前運(yùn)用得較為普遍,且又十分有效的尋找有關(guān)聯(lián)的或高質(zhì)量的學(xué)術(shù)文獻(xiàn)的方法。
當(dāng)代的學(xué)術(shù)文獻(xiàn)都需要列出參考文獻(xiàn),也就是引用文獻(xiàn)。因此,在學(xué)術(shù)文獻(xiàn)的體系結(jié)構(gòu)中,每篇文獻(xiàn)并不是孤立存在的,而是互相聯(lián)系的。通過(guò)引文分析法可以尋找出相關(guān)主題的很多文獻(xiàn);可以對(duì)文獻(xiàn)質(zhì)量和作者的學(xué)術(shù)水平進(jìn)行測(cè)評(píng),統(tǒng)計(jì)分析文獻(xiàn)的被引用次數(shù),可以測(cè)得高被引文獻(xiàn)、高被引作者、核心期刊、核心出版社;可以測(cè)評(píng)文獻(xiàn)的老化年限。如今一些數(shù)據(jù)庫(kù)大都使用這種方法來(lái)讓用戶尋找出有關(guān)聯(lián)的文獻(xiàn),如同一主題的文獻(xiàn)和重要文獻(xiàn),同一主題的不同研究者,重要研究者和重要研究機(jī)構(gòu)。此外,一些機(jī)構(gòu)還運(yùn)用引文分析法來(lái)確定核心期刊。
(2)要素分析法
研究有價(jià)值文獻(xiàn)形成的要素,然后對(duì)這些要素進(jìn)行分析,尋找出判斷有價(jià)值文獻(xiàn)的客觀依據(jù)。具體方法是,在對(duì)有價(jià)值的文獻(xiàn)進(jìn)行分析后(就如以上所述用引文分析法尋找出高被引文獻(xiàn)后),找出有價(jià)值文獻(xiàn)的形成要素。例如,現(xiàn)在一些研究表明,核心出版社、作者身份、重要研究機(jī)構(gòu)、版次(多次出版)、基金項(xiàng)目是有價(jià)值圖書的形成要素。[4]這些要素也就成為判斷有價(jià)值文獻(xiàn)的客觀依據(jù)。
這樣,就需要研究分析各領(lǐng)域有價(jià)值文獻(xiàn)的要素,例如,分析出哲學(xué)領(lǐng)域?qū)W術(shù)圖書的核心作者、核心出版社和重要研究機(jī)構(gòu)。這些作者的學(xué)術(shù)身份和所屬機(jī)構(gòu)以及核心出版社,再加之比較容易發(fā)現(xiàn)的版次和基金項(xiàng)目的級(jí)別就成為尋找哲學(xué)類有價(jià)值學(xué)術(shù)文獻(xiàn)的客觀依據(jù)。
在龐大的文獻(xiàn)體系中,各類文獻(xiàn)的價(jià)值取向是不同的,如學(xué)術(shù)文獻(xiàn)和休閑娛樂(lè)文獻(xiàn)的價(jià)值取向是不同的。人文素養(yǎng)類、科普類、勵(lì)志類、教輔類等文獻(xiàn)的價(jià)值取向也都不同。所以需要分析并確定各領(lǐng)域有價(jià)值文獻(xiàn)的形成要素,才能發(fā)現(xiàn)各領(lǐng)域有價(jià)值的文獻(xiàn)。要注意的是,要素的情況是會(huì)發(fā)生變化的,需要定期地進(jìn)行分析。就如當(dāng)今對(duì)核心刊物每隔一段時(shí)間就要測(cè)評(píng)一次。
(3)領(lǐng)域本體構(gòu)建
這是數(shù)字文獻(xiàn)發(fā)現(xiàn)的有效方法。這種方法用于尋找數(shù)字文獻(xiàn),一是存貯于各類數(shù)據(jù)庫(kù)中的文獻(xiàn);二是散布在Web網(wǎng)上的文獻(xiàn)。
本體(Ontology)原本是一個(gè)哲學(xué)上的概念,是研究實(shí)體存在及其本質(zhì)的通用理論。后來(lái),“本體”被引入人工智能領(lǐng)域。1991年奈切斯(Neches)等人將Ontology定義“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成詞匯外延的規(guī)則”。1998年斯圖德(Studer)等人進(jìn)一步提出:“Ontology是共享概念模型的明確的形式化規(guī)范說(shuō)明。”這定義包括四層含義:“概念模型”指通過(guò)客觀世界中一些現(xiàn)象的相關(guān)概念而得出的模型;“明確”指所使用的概念及其約束都有明確的定義;形式化是指Ontology是計(jì)算機(jī)可讀的;“共享”是指Ontology體現(xiàn)的是共同認(rèn)可的知識(shí)。[5]
完成各領(lǐng)域的本體構(gòu)建后,即可運(yùn)用計(jì)算機(jī)識(shí)別技術(shù)對(duì)數(shù)量龐大的數(shù)字文獻(xiàn)中的內(nèi)容進(jìn)行比對(duì),尋找出符合相關(guān)術(shù)語(yǔ)及關(guān)聯(lián)(“關(guān)聯(lián)”包括等同/同義關(guān)系、層次關(guān)系、相關(guān)關(guān)系等。這些關(guān)聯(lián)將本體有機(jī)地連接成為一個(gè)具有語(yǔ)義的整體)的文獻(xiàn)。如果已經(jīng)對(duì)存貯于數(shù)據(jù)庫(kù)的文獻(xiàn)進(jìn)行了標(biāo)引,檢索效率就更高。
因此,利用領(lǐng)域本體進(jìn)行文獻(xiàn)的尋找,其檢索效率大大高于目前的搜索引擎(因此,構(gòu)建領(lǐng)域本體也是Web網(wǎng)向語(yǔ)義網(wǎng)發(fā)展的基礎(chǔ)工作),但是領(lǐng)域本體的構(gòu)建相當(dāng)復(fù)雜,難度很高,需要計(jì)算機(jī)學(xué)科、情報(bào)學(xué)科、圖書館學(xué)科領(lǐng)域?qū)<业榷鄬W(xué)科的專業(yè)人員進(jìn)行協(xié)作才能完成。
(4)讀者評(píng)價(jià)
這里的“讀者”既包括一般讀者,也包括專業(yè)讀者和專家讀者。這是一種定性的方法。這種方法能尋找出的文獻(xiàn)是少量的,所以必須與以上一些方法結(jié)合起來(lái)使用。
一般有這樣幾種做法:
一是用問(wèn)卷調(diào)查的方法取得讀者對(duì)文獻(xiàn)的評(píng)價(jià)。與圖書排行榜、文獻(xiàn)利用率不同的是,這種方法可以更加深入地了解讀者對(duì)文獻(xiàn)的評(píng)價(jià)。調(diào)查表格的設(shè)計(jì)至關(guān)重要,既要讓被調(diào)查者感覺(jué)填起來(lái)方便,又能通過(guò)表格的填寫獲取所需的信息。
二是通過(guò)讀者推薦圖書。這也可以了解到有關(guān)圖書的受歡迎程度。如果是專業(yè)讀者的推薦,更是具有一定的專業(yè)水準(zhǔn),隱含了同行評(píng)審的行為。因此,各類圖書館的“讀者薦購(gòu)”是一項(xiàng)很重要的工作。
三是通過(guò)各類書評(píng)文章,了解一些有價(jià)值圖書的信息。
以上所述的方法有的是定量的、有的是定性的,可以互相結(jié)合,形成大數(shù)據(jù)時(shí)代文獻(xiàn)發(fā)現(xiàn)的方法體系。例如通過(guò)文獻(xiàn)計(jì)量法可以測(cè)定出有價(jià)值文獻(xiàn),而通過(guò)要素分析法可以分析出這些有價(jià)值文獻(xiàn)的形成要素以及要素的具體內(nèi)容,同時(shí)結(jié)合讀者調(diào)查法,就可以尋找出所需要的某類文獻(xiàn)。領(lǐng)域本體的構(gòu)建可以用于數(shù)字文獻(xiàn)的查找,尋找出相關(guān)文獻(xiàn)后,也可以使用文獻(xiàn)計(jì)量法和要素分析法作進(jìn)一步研究。
(1)實(shí)踐意義:降低文獻(xiàn)采集誤選比例,提高入藏文獻(xiàn)質(zhì)量。
“文獻(xiàn)發(fā)現(xiàn)”理論是基于社會(huì)文獻(xiàn)生產(chǎn)的變化所引起的日益嚴(yán)重的信息冗余和信息污染的現(xiàn)象而提出的。
20世紀(jì)90年代中期以后,我國(guó)各類編輯出版機(jī)構(gòu)開(kāi)始市場(chǎng)化運(yùn)行,盈利自然成為這類機(jī)構(gòu)追求的主要目標(biāo)。例如,作為社會(huì)主要的圖書審核機(jī)構(gòu)的出版社放松了對(duì)出版物的限制,使得社會(huì)的各種出版需求得到了很大的釋放,出版物數(shù)量激增。
品種數(shù)量的劇增并不意味著社會(huì)創(chuàng)新能力的大幅度提升,因?yàn)槠渲谐涑庵罅康退街貜?fù)的、跟風(fēng)的、低俗化的、粗制濫造的出版物。“信息冗余”和“信息污染”現(xiàn)象相當(dāng)嚴(yán)重。據(jù)統(tǒng)計(jì),截至2007年,在中國(guó)社會(huì)科學(xué)引文索引(CSSCI)中被引用過(guò)1次及以上的圖書僅占相應(yīng)時(shí)間段所出版圖書總數(shù)的13%。[6]這種社會(huì)文獻(xiàn)生產(chǎn)狀況的變化對(duì)文獻(xiàn)收藏機(jī)構(gòu)的影響相當(dāng)大。
例如,根據(jù)研究,作為社會(huì)重要的文獻(xiàn)收藏機(jī)構(gòu)的圖書館在文獻(xiàn)采集環(huán)節(jié)中產(chǎn)生了高比例的誤選現(xiàn)象,即把大量無(wú)甚價(jià)值的文獻(xiàn)購(gòu)置入館,卻又漏藏了相當(dāng)比例的有價(jià)值文獻(xiàn)。[7]又例如,據(jù)統(tǒng)計(jì),我國(guó)很多高校圖書館中新入藏中文圖書在入藏3年期間(這應(yīng)該是圖書出借率最高的時(shí)間段)零借閱率比例年平均高達(dá)40%~50%。[8]這樣的比例對(duì)那些半衰期短的圖書來(lái)說(shuō),就意味著大量的圖書面臨著短期內(nèi)被剔除的命運(yùn),人力、財(cái)力、空間的浪費(fèi)是十分嚴(yán)重的。
“文獻(xiàn)發(fā)現(xiàn)”理論能讓有關(guān)機(jī)構(gòu)認(rèn)識(shí)到大數(shù)據(jù)時(shí)代文獻(xiàn)采集面臨的狀況,改變以往粗放型的采集方式(即根據(jù)類目和題名進(jìn)行快速選書),并運(yùn)用科學(xué)的方法采集文獻(xiàn),從而降低誤選比例,提高入藏文獻(xiàn)質(zhì)量。
(2)理論意義:推動(dòng)圖書館學(xué)有關(guān)理論的發(fā)展。
與文獻(xiàn)有關(guān)的學(xué)科有圖書館學(xué)、情報(bào)學(xué)、檔案學(xué)、文獻(xiàn)學(xué)、版本學(xué)、目錄學(xué)等,“文獻(xiàn)發(fā)現(xiàn)”理論與圖書館學(xué)的關(guān)系最為密切,這是因?yàn)閳D書館學(xué)是一門研究文獻(xiàn)采集、文獻(xiàn)組織、文獻(xiàn)傳遞、文獻(xiàn)保存的學(xué)科?!拔墨I(xiàn)發(fā)現(xiàn)”理論可以推動(dòng)圖書館學(xué)館藏建設(shè)理論和圖書館職能理論的發(fā)展。
首先,可以推動(dòng)館藏建設(shè)理論進(jìn)一步發(fā)展。
我國(guó)的館藏建設(shè)研究在20世紀(jì)80年代末已經(jīng)形成了一個(gè)較為完整的理論體系。該理論體系包括館藏補(bǔ)充的原則、館藏發(fā)展的規(guī)劃、館藏結(jié)構(gòu)的體系規(guī)范、選書的理論和方法、關(guān)于剔除的理論、關(guān)于館藏質(zhì)量的評(píng)價(jià)方法、藏書發(fā)展政策研究等等[9],但是這個(gè)理論體系是建立在出版物的數(shù)量和質(zhì)量都受到較為嚴(yán)格控制基礎(chǔ)上的。在社會(huì)文獻(xiàn)生產(chǎn)狀況發(fā)生了較大變化的背景下,有些理論需要重新認(rèn)識(shí)。
例如,以往五級(jí)藏書制中的“完全級(jí)”理論是有問(wèn)題的。完全級(jí)藏書理論要求圖書館在確定某個(gè)重點(diǎn)類目以后,對(duì)這個(gè)類目進(jìn)行完全式采集(即有一種,就要購(gòu)買一種)??墒歉鶕?jù)當(dāng)前文獻(xiàn)產(chǎn)生的狀況,這樣的方式肯定要購(gòu)入很多無(wú)甚價(jià)值的圖書,是沒(méi)有必要的,因此,五級(jí)藏書制理論需要重新討論,可以根據(jù)“文獻(xiàn)發(fā)現(xiàn)”理論確定核心藏書或高被引藏書、基金項(xiàng)目藏書等。
又如,數(shù)字文獻(xiàn)的發(fā)展不僅表現(xiàn)在傳統(tǒng)書刊的數(shù)字化,還表現(xiàn)在出現(xiàn)了很多新型的文獻(xiàn)體裁,如博客日志、PPT、電子郵件、網(wǎng)頁(yè)內(nèi)容等等,從保存人類文化遺產(chǎn)的這樣的社會(huì)職能來(lái)看,圖書館也應(yīng)該收集其中有關(guān)的內(nèi)容,但如何來(lái)收集、采用什么標(biāo)準(zhǔn),都需要探索?!拔墨I(xiàn)發(fā)現(xiàn)”理論應(yīng)該探究這些問(wèn)題。
此外,“文獻(xiàn)發(fā)現(xiàn)”將進(jìn)一步推動(dòng)對(duì)文獻(xiàn)采集方法的研究,研究當(dāng)代文獻(xiàn)采集的方法體系。這一切都將推動(dòng)館藏建設(shè)理論的進(jìn)一步發(fā)展。
其次,推動(dòng)圖書館社會(huì)職能理論的變革。
在圖書館學(xué)基礎(chǔ)理論體系中,關(guān)于圖書館社會(huì)職能的理論對(duì)圖書館各項(xiàng)工作最具有實(shí)際指導(dǎo)意義,圖書館進(jìn)行的文獻(xiàn)采集、文獻(xiàn)標(biāo)引、著錄、上架、清點(diǎn)、環(huán)境控制、參考咨詢、閱讀推廣等各項(xiàng)工作都是在職能理論的指導(dǎo)下進(jìn)行的。
一般認(rèn)為,圖書館具有文獻(xiàn)信息流整序、文獻(xiàn)信息傳遞、開(kāi)展社會(huì)教育和開(kāi)發(fā)智力資源和搜集和保存人類文化遺產(chǎn)等社會(huì)職能。近年來(lái),又增加了休閑娛樂(lè)的社會(huì)職能。[10](P92)
然而,長(zhǎng)期以來(lái),我國(guó)的職能理論研究對(duì)“文獻(xiàn)搜集”職能的闡述是十分簡(jiǎn)略的,一般只強(qiáng)調(diào)了要注意不同載體的文獻(xiàn)搜集。[10]這樣的闡述在當(dāng)代已經(jīng)不合時(shí)宜。
應(yīng)該認(rèn)識(shí)到在海量的信息載體中采集有價(jià)值文獻(xiàn)的難度,認(rèn)識(shí)到采集和保存有價(jià)值文獻(xiàn)對(duì)人類社會(huì)發(fā)展的極端重要性,從而加強(qiáng)和拓展符合時(shí)代發(fā)展的文獻(xiàn)搜集的理論,并對(duì)圖書館的職能理論作進(jìn)一步的探討,在職能理論中凸顯“文獻(xiàn)搜集”的職能。
因此,“文獻(xiàn)發(fā)現(xiàn)”可以成為當(dāng)代圖書館新的社會(huì)職能。從微觀層面上看,有利于圖書館文獻(xiàn)采集工作水平的提升,而高水平的文獻(xiàn)采集能力將成為圖書館的核心競(jìng)爭(zhēng)力;從宏觀層面上看,有利于人類社會(huì)有價(jià)值文獻(xiàn)的采集、保存和傳播。
為了推動(dòng)圖情機(jī)構(gòu)的發(fā)展,在很多年前,圖書情報(bào)領(lǐng)域引入“知識(shí)發(fā)現(xiàn)”的概念。這種概念似乎為圖書館和情報(bào)機(jī)構(gòu)一直期望實(shí)現(xiàn)的“知識(shí)服務(wù)”提供了一種研究方向,然而,這種研究實(shí)際與圖情機(jī)構(gòu)的工作基本沒(méi)有關(guān)系,因?yàn)椤爸R(shí)發(fā)現(xiàn)”是指從大規(guī)模的數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過(guò)程[11],它的理論和實(shí)踐主要應(yīng)用于各種行業(yè)的業(yè)務(wù)數(shù)據(jù)集分析方面。
文獻(xiàn)與知識(shí)的區(qū)別在于前者是后者的載體。圖書館工作的對(duì)象就是這種載體,一般來(lái)說(shuō)即為圖書、報(bào)刊及視聽(tīng)資料的總和。近年來(lái),數(shù)據(jù)庫(kù)在館藏的比重越來(lái)越高,但是這些數(shù)據(jù)庫(kù)中存貯的大都也是文獻(xiàn)(不是行業(yè)的業(yè)務(wù)數(shù)據(jù))。
當(dāng)今一些期刊數(shù)據(jù)庫(kù)利用引文分析法找出文獻(xiàn)與文獻(xiàn)之間的關(guān)聯(lián),讓用戶能從某一篇文獻(xiàn)出發(fā)找到相關(guān)的文獻(xiàn)。雖然聲稱這是一種知識(shí)發(fā)現(xiàn),實(shí)際也是文獻(xiàn)發(fā)現(xiàn),而且這都是數(shù)據(jù)庫(kù)商開(kāi)發(fā)的,圖書館的專業(yè)人員在這方面是沒(méi)有什么作為的。
“文獻(xiàn)發(fā)現(xiàn)”則完全可以成為圖書館專業(yè)人員努力的方向。掌握文獻(xiàn)發(fā)現(xiàn)的方法,尋找有價(jià)值的文獻(xiàn)應(yīng)該成為圖書館專業(yè)人員職責(zé)所在。
圖書館社會(huì)職能的擴(kuò)大是圖書館發(fā)展的規(guī)律,圖書館職能會(huì)隨著社會(huì)的發(fā)展而發(fā)展,從最初的文獻(xiàn)保存職能、文獻(xiàn)整序職能發(fā)展到具有文獻(xiàn)傳遞、開(kāi)展社會(huì)教育等職能?!拔墨I(xiàn)發(fā)現(xiàn)”則應(yīng)該發(fā)展成為當(dāng)代圖書館新的社會(huì)職能。
《中國(guó)哲社類學(xué)術(shù)圖書基本書目(1995—2005)》是國(guó)家教育部人文社科規(guī)劃基金項(xiàng)目的成果之一。該成果就是在“文獻(xiàn)發(fā)現(xiàn)”理論的指導(dǎo)下,運(yùn)用“文獻(xiàn)發(fā)現(xiàn)”的方法對(duì)1995—2005年我國(guó)出版的哲社類圖書進(jìn)行分析,從而發(fā)現(xiàn)高質(zhì)量的學(xué)術(shù)文獻(xiàn)的過(guò)程。從這個(gè)案例可看出,有價(jià)值的學(xué)術(shù)文獻(xiàn)在文獻(xiàn)總量中所占的比例是相當(dāng)?shù)偷?也由此說(shuō)明了“文獻(xiàn)發(fā)現(xiàn)”理論的重要意義。
首先,獲取了我國(guó)1995—2005年出版的哲社類圖書共722534種,如表1:
表1 我國(guó)1995—2005年出版的哲社類圖書書目總量(包括重版、重印)
然后,刪除了科普類、勵(lì)志類、文藝作品類、教輔類、習(xí)題集、大專以下教材等方面的圖書,得到的學(xué)術(shù)圖書共126170種,如表2
表2 我國(guó)1995—2005年出版的哲社類學(xué)術(shù)圖書總數(shù)
再者,運(yùn)用Google Scholar作為引文分析工具,對(duì)這126170種圖書進(jìn)行了引文分析。分析后發(fā)現(xiàn),有1次(包括1次)以上被引次數(shù)的學(xué)術(shù)圖書共53333種,占學(xué)術(shù)圖書總數(shù)的42.2%,占哲社類圖書總量的7.4%。
被選入書目的圖書的標(biāo)準(zhǔn)有兩個(gè)維度:一是根據(jù)被引頻次,即定量的維度(實(shí)際也包含定性的因素,因?yàn)楸灰惨馕吨说恼J(rèn)可)。這個(gè)維度基本遵循二八定律,即入選圖書的被引次數(shù)占總被引量的70%~80%。各個(gè)學(xué)科的情況是不同的,如H類圖書要達(dá)到被引35次才能入選基本書目,G類圖書要被引23次才能入選,D類則要求被引22次,而I類圖書和K類圖書被選入基本書目要求的被引次數(shù)相對(duì)比較低。二是根據(jù)定性的維度,請(qǐng)有關(guān)學(xué)科專家對(duì)根據(jù)被引次數(shù)而選入基本書目的圖書進(jìn)行審核,也可推薦自己認(rèn)為的好書;同時(shí)把在1995—2005年時(shí)段出版的由國(guó)家社科基金項(xiàng)目資助的圖書、獲得國(guó)家圖書獎(jiǎng)等獎(jiǎng)項(xiàng)的圖書、《中國(guó)圖書評(píng)論》中所涉及到的學(xué)術(shù)圖書也作為選入基本書目的重要依據(jù)(后兩類作為附錄列出),因?yàn)檫@類圖書是通過(guò)各學(xué)科專家層層審定而產(chǎn)生的。
表3是根據(jù)二八定律確定引文頻次并經(jīng)有關(guān)專家審定而產(chǎn)生的圖書情況:
表3 根據(jù)二八定律各學(xué)科并經(jīng)有關(guān)學(xué)科專家審定入選基本書目的圖書數(shù)量
表4是有關(guān)基金項(xiàng)目資助出版、獲得國(guó)家獎(jiǎng)或中國(guó)圖書評(píng)論中涉及到的圖書數(shù)量:
表4 有關(guān)基金資助、獲獎(jiǎng)、書評(píng)涉及的學(xué)術(shù)圖書數(shù)量(已去掉與前表中圖書重復(fù)的)
表3和表4共計(jì)圖書16763種,僅占哲社類圖書總量的2.3%,應(yīng)該說(shuō)把這些圖書作為我國(guó)在1995—2005年出版的有價(jià)值的哲社類學(xué)術(shù)圖書,是有相當(dāng)說(shuō)服力的。
這個(gè)案例運(yùn)用引文分析法、二八定律和讀者調(diào)查法從722535種圖書中尋找出有價(jià)值的學(xué)術(shù)圖書16763種。
標(biāo)準(zhǔn)書目,也即能作為標(biāo)準(zhǔn)來(lái)衡量圖書質(zhì)量的權(quán)威書目。以上所編制的《中國(guó)哲社類學(xué)術(shù)圖書基本書目(1995—2005)》就是一種標(biāo)準(zhǔn)書目。利用該書目,可以分析有價(jià)值圖書的形成要素。
通過(guò)分析入選書目的圖書的出版社分布、年代分布、作者分布和機(jī)構(gòu)分布,測(cè)定出哲社類各學(xué)科的核心出版社、核心作者、重要研究機(jī)構(gòu)等。
例如對(duì)入選C大類的圖書進(jìn)行分析,分析出北京大學(xué)出版社、中國(guó)人民大學(xué)出版社、社會(huì)科學(xué)文獻(xiàn)出版社、高等教育出版社、生活·讀書·新知三聯(lián)書店、中國(guó)社會(huì)科學(xué)出版社、科學(xué)出版社、華夏出版社、清華大學(xué)出版社、上海人民出版社等出版社為該類的核心出版社;同時(shí)分析出費(fèi)孝通、韋伯、德魯克、王國(guó)維、王銘銘、鄭也夫、陳向明、郭咸綱、李維安等為該類的核心作者。進(jìn)一步對(duì)核心作者進(jìn)行抽樣分析,發(fā)現(xiàn)入選圖書在2種以上(包括2種)的作者中,96%的職稱均為教授,另外的4%也是在各自領(lǐng)域有突出成就的學(xué)者;而從這些作者所屬機(jī)構(gòu)來(lái)看,清華大學(xué)、北京大學(xué)、中國(guó)人民大學(xué)和南京大學(xué)4所大學(xué)就占到36%,屬于排名前十的重要研究機(jī)構(gòu)占50%以上、核心出版社所占比例也達(dá)到了80%以上。[4]
由此可以確定,作者的學(xué)術(shù)身份和所屬機(jī)構(gòu)以及是否核心出版社是判斷圖書有沒(méi)有價(jià)值的重要依據(jù)。
通過(guò)以上案例,可以進(jìn)一步認(rèn)識(shí)“文獻(xiàn)發(fā)現(xiàn)”的理論和方法。
[1] 楊絳.基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J].圖書館雜志,2012,(9).
[2] 葉鷹.信息檢索:理論與方法[M].北京:高等教育出版社,2004.
[3] 馬費(fèi)城,等.信息管理學(xué)基礎(chǔ)[M].武漢:武漢大學(xué)出版社,2002.
[4] 陸怡洲.試析圖書質(zhì)量評(píng)價(jià)的客觀要素——兼論構(gòu)建圖書采訪技術(shù)體系[J].圖書館雜志,2012,(6).
[5] 劉植惠.本體(Ontology)與語(yǔ)義網(wǎng)(Semantic Web)[J].重慶圖情研究,2006,(3).
[6] 葉繼元.改革開(kāi)放30年學(xué)術(shù)發(fā)展的主要特點(diǎn)和重要成果探視——基于圖書被引用的分析[J].云夢(mèng)學(xué)刊,2008,(4).
[7] 陸怡洲,吳志榮.當(dāng)前藏書建設(shè)中存在的高比例誤選黑洞及對(duì)策——以計(jì)算機(jī)類圖書為例[J].圖書館建設(shè),2011,(7).
[8] 劉淑波,胡文華.新書書庫(kù)圖書利用實(shí)證調(diào)查研究及對(duì)策[J].圖書情報(bào)知識(shí),2010,(3).
[9] 吳志榮.對(duì)館藏建設(shè)領(lǐng)域開(kāi)展案例實(shí)證研究的思考[J].圖書館,2010,(5).
[10]吳慰慈,董焱.圖書館概論[M].北京:北京圖書館出版社,2002.
[11]賀清碧,胡久永.數(shù)據(jù)挖掘技術(shù)綜述[J].西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,(3).