謝 萍 鄭 莎
(1.江蘇大學圖書館 鎮(zhèn)江 212013; 2.江蘇大學科技信息研究所 鎮(zhèn)江 212013)
·情報分析·
美國圖書情報學專業(yè)TOP高校2006-2011年研究熱點聚類分析
謝 萍1鄭 莎2
(1.江蘇大學圖書館 鎮(zhèn)江 212013; 2.江蘇大學科技信息研究所 鎮(zhèn)江 212013)
以《美國新聞和世界報導》2012年公布的美國大學圖書情報專業(yè)排名前20的高校在2006-2011年間發(fā)表的SSCI收錄文章為數(shù)據(jù)源,借助BIBEXCEL提取關鍵詞構建相異矩陣,利用SPSS聚類分析,采用平方歐氏距離方法,通過樹狀圖聚類分析,查看研究熱點。
圖書情報專業(yè) 美國高校 BIBEXCEL SPSS
作者先后在美國3所高?!箍敌链髮W(麥迪遜分校)、堪薩斯大學和密西西比州立大學生活和學習長達10年之久,十分了解這三所美國高校的圖書情報專業(yè)的概況和圖書館的設施、管理、運作等情況。從中感受到世界上每個科學領域都在迅速地變化和不停地更新,新的研究課題不斷涌現(xiàn),并不斷成為該領域的研究熱點和前沿方向。比如說圖書情報學隨著信息技術和網(wǎng)絡的發(fā)展不斷向多個全新的領域延伸。現(xiàn)以美國最有影響力的機構《美國新聞和世界報導》(US News & World Report)在2012年公布的“美國大學圖書情報專業(yè)研究生排名”為基礎,選取排名前20*注:網(wǎng)站上實際公布的有45所大學,本文僅選取排名前20的大學。的美國高校,檢索這些高校2006-2011年圖書情報學專業(yè)的文章被SSCI收錄的情況,利用分析軟件BIBEXCEL提取關鍵詞(SSCI部分收錄文章關鍵詞,但仍然具有一定代表性同時刪除無意義的詞)、構建相異矩陣;再使用SPSS軟件對關鍵詞矩陣進行層次聚類分析,從得到的樹狀圖和柱狀圖分析聚類情況,以期查看美國圖書情報專業(yè)TOP高校在2006-2011年這段時間內(nèi)的研究熱點及發(fā)展趨勢。
筆者于2012年4月10日訪問《美國新聞和世界報導》的官方網(wǎng)站(http://www.usnews.com/)獲取了“美國大學圖書情報專業(yè)研究生排名”,并對學校名稱進行了翻譯,如表1所示。
表1 2012 年美國大學圖書情報專業(yè)研究生排名[1]
所有數(shù)據(jù)來源于美國科學情報研究所(Institute for Scientific Information,簡稱ISI)創(chuàng)建的檢索工具web of science之一SSCI(《社會科學引文索引》數(shù)據(jù)庫)。 檢索條件如下:((SU=INFORMATION SCIENCE LIBRARY SCIENCE) AND (AD=( UNIV ILLINOIS OR UNIV N CAROLINA OR SYRACUSE UNIV OR UNIV WASHINGTON OR UNIV MICHIGAN OR RUTGERS STATE UNIV OR INDIANA UNIV OR UNIV TEXAS AUSTIN OR DREXEL UNIV OR SIMMONS COLLEGE OR UNIV MARYLAND OR UNIV PITTSBURGH OR UNIV WISCONSIN OR FLORIDA STATE UNIV OR UNIV CALIF LOS ANGELES OR UNIV WISCONSIN——MILWAUKEE OR UNIV N TEXAS OR UNIV SOUTH CAROLINA COLUMBIA OR UNIV TENNESSEE OR KENT STATE UNIVERSITY OR WAYNE STATE UNIVERSITY) ) AND出版類型=(Article),時間限制在2006-2011年,得到1 964篇文獻。
首先使用EXCEL對文章統(tǒng)一不同詞型、單復數(shù)詞和縮寫詞為一種常用形式,將關鍵詞規(guī)范化,例如library和libraries,e-journals 和electronic journals,model 和 modeling,electronic commerce 和 e- commerce等。
BIBEXCEL的操作步驟:
①將SSCI檢索到的文章保存形式*.txt文件轉換成Bib excel可以接受的dialog格式,產(chǎn)生 *.doc文件;
② 對*.doc文件進行關鍵詞分析,產(chǎn)生*.out文件;
③再對*.out文件排序和去除重復WORDS,進而產(chǎn)生了*.cit和*.oux文件;
*.cit文件得到了關鍵詞3 833個,取關鍵詞次數(shù)大于10,總計20個,見表2。
表2 2006-2011 年高頻關鍵詞
④ 分析*.cit和*.oux文件,產(chǎn)生共現(xiàn)文件*.coc
⑤ *.coc 分析得到*.ccc
⑥利用*.coc 和*.ccc,得到共現(xiàn)矩陣,為了消除頻次懸殊造成的影響,用ochiia 系數(shù)將共現(xiàn)矩陣轉換成為相似矩陣,方法是將共現(xiàn)矩陣中的每個數(shù)都除以與之相關的兩個關鍵詞總頻次開方的乘積,公式如下:
對上面的共現(xiàn)矩陣轉換后,矩陣中兩個詞的對角線上的數(shù)據(jù)表示某個詞與自身的相似程度,按上述公式計算后均為1,從而得到相關矩陣。相關矩陣中的數(shù)字表明的是數(shù)據(jù)間的相似性,數(shù)字的大小表明了相應兩個關鍵詞之間的距離遠近,數(shù)值越大則表明關鍵詞之間的距離越近,相似度越大; 反之,相似度越小。再用1 減去相關矩陣中的數(shù)據(jù),就可以得到相異矩陣[2],見圖1。
圖1 2006-2011相異矩陣
由表2可見,圖書情報專業(yè)排名前20的美國高校2006-2011年所發(fā)表論文的關鍵詞3 833個,信息檢索、知識管理、數(shù)字圖書館、信息技術、電子商務、情報學、外包、引用分析、用戶研究等是這些高校的主要研究領域,關鍵詞的線性排列結果無法反應主題研究的全貌,需要構建共現(xiàn)矩陣進一步分析,對高頻關鍵詞兩兩配對,構成矩陣,而表3相異矩陣中,從數(shù)值來看,越小的關系越密切,反映這些詞所代表的主題內(nèi)容的結構,以user study這一列為例,其中用戶研究和數(shù)字圖書館關系最密切,其值0.845507;關系較疏的是用戶研究和知識管理,其值0.937983。
采用IBM SPSS STATISTICS VERSION 19對高頻關鍵詞兩兩配對的連接強度進行分層次聚類分析。層次聚類分析過程:首先,每個個體自成一類;然后,按照某種方法度量所有個體間的“親疏程度”,并將其中最“親密”的個體聚成一小類,形成n-1個類;接下來再次度量剩余個體和小類間的“親疏程度”并將當前最親密的個體或小類再聚到一起,形成一個最大的類為止。親疏程度的測量方法有幾種,本文采用“平方歐氏距離 Squared Euclidean Distance”,其定義為兩個體k個變量值之差的平方和,數(shù)學定義為
其中個體xi是x的第i個變量,個體yi是y的第i個變量[3];
步驟如下:數(shù)值-analyze -classify -hierarchical cluster
聚類分析結果見圖2。
圖2 2006-2011年組間平方歐氏距離-聚類分析樹狀圖
根據(jù)聚類分析樹狀圖在閾值25處把這些高頻詞分成6個類團組:類團①情報學及信息檢索,主要關鍵詞有information retrieval、 information science;類團②圖書館及用戶研究,主要關鍵詞有l(wèi)ibraries、user studies、united state of American、digital libraries、 Academic libraries;類團③信息系統(tǒng)和知識管理,主要關鍵詞有knowledge management、information systems;類團④信息處理,主要關鍵詞有internet、Public libraries、computer-mediated communication(CMC)、electronic commerce、social networks、trust;類團⑤引文分析,主要關鍵詞有citation analysis;類團⑥信息技術的革新及外包,主要關鍵詞有information technology、innovation 、outsourcing。
5.1 情報學及信息檢索
情報學是一門不斷發(fā)展的多元化學科,隨著信息技術的發(fā)展和知識經(jīng)濟的興起,情報學的研究對象從文獻轉向信息、轉向知識,計量分析方法和手段也由定性到定量、由單一向多樣化發(fā)展,比如共詞分析、圖譜分析、信息可視化等綜合方法,以及大量的統(tǒng)計分析軟件(例如Cite space、BIBEXCEL、SPSS)的使用。隨著人類社會向信息社會的演進,情報學的社會重要性日益增加,其作用與研究成果會成為信息化社會的強大支柱之一。信息檢索隨著計算機技術的不斷發(fā)展和應用成為情報學重要領域,因特網(wǎng)又為我們獲得信息提供了便利的條件和可能性,計算機和網(wǎng)絡的結合,完全有效地打破了傳統(tǒng)的信息檢索的區(qū)域性和局限性,用戶可以足不出戶就輕松獲得所需要的信息,而且目前信息呈現(xiàn)了圖文并茂,有聲有色,多種多樣的形式,這使得信息檢索一直為人們所熱衷。信息檢索先后經(jīng)歷了脫機信息檢索、聯(lián)機信息檢索、光盤信息檢索、網(wǎng)絡化信息檢索等四個發(fā)展階段,檢索的對象也已從相對封閉、獨立的數(shù)據(jù)庫集中管理的信息內(nèi)容逐漸擴展到如今開放式的、動態(tài)的、更新快、分布廣泛、管理松散的網(wǎng)絡內(nèi)容,但是它依然存在著許多問題,科研人員一直致力于研究和攻克這些難題,比如準確率或查準率、標引規(guī)范化、自動分類、概念語義空間、建立基于本體的信息檢索模型等。這些是今后信息檢索領域繼續(xù)的研究方向,信息檢索會由今天的個性化、人性化和智能化的方向再進一步向前成熟發(fā)展,以用戶為中心,充分利用公共資源和日志資源,融入來自多學科各領域的技術和研究人員,會讓今后的信息檢索的研究更加豐富多彩,真正實現(xiàn)用戶輕松容易地進行網(wǎng)上自動標引、自動文摘、自動跟蹤、自動漫游、機器翻譯、多媒體檢索、動態(tài)連接、數(shù)據(jù)挖掘等操作。
5.2 圖書館及用戶研究
近十年來,用戶研究已成為圖書情報學的研究熱點之一。隨著信息技術和網(wǎng)絡技術的飛速發(fā)展,圖書館面臨的技術條件和社會環(huán)境發(fā)生了很大的變化,用戶研究和數(shù)字圖書館成為研究熱點。用戶研究主要是以用戶為中心,為了使圖書館對用戶做出更人性化、更細致入微的服務而展開的研究,即積極用戶體驗,包括用戶需求、用戶心理、用戶滿意度、用戶服務等方面的研究。用戶影響著圖書館的全部活動,也影響著圖書館的整體建設,用戶的需求狀態(tài)直接制約著圖書館的服務策略、管理模式等,因此,用戶研究為該領域學者所重視,例如賓州州立大學的Spink對將近2萬個用戶的查詢行為進行了研究。這十年期間的轉變主要有幾點:用戶群越來越平等獲取信息;文獻信息管理到知識管理的轉變;從館員服務到用戶自助服務的轉變;館員能力到用戶能力的轉變。從紙質到數(shù)字化業(yè)務的發(fā)展是21 世紀圖書館的重點,數(shù)字圖書館一經(jīng)提出便得到廣泛的關注,各國紛紛對其概念、技術、應用、管理及評價等進行研究,例如羅格斯大學的Saracevic 的文章《數(shù)字圖書館評估:概念的發(fā)展過程》對數(shù)字圖書館評價的概念框架提出了一系列建議:我們應該怎么評價?我們評估的目的是什么?誰應該評估?我們在什么水平評估?當我們評估標準是什么?同時加州大學洛杉磯分校的Borgman教授在文章《數(shù)字圖書館和學術交流的連續(xù)性》中探討了學術交流與數(shù)字圖書館,一個相對較新的研究領域之間的關系,他談到了學術團體,出版商和圖書館的關系。國外的主要圖書館已經(jīng)開始著手規(guī)劃和實施利用"云技術"進行數(shù)字資源長期保存的問題,用戶研究也以資源為中心向以用戶為中心轉移。圖書館未來的發(fā)展,應該以用戶為中心,應用新技術使讀者更加方便參與圖書館互動,為用戶提供最佳服務,將讀者吸引回到圖書館的空間;而未來數(shù)字圖書館的建設,應形成以用戶為中心、以信息門戶為統(tǒng)一界面、以個性化服務、集成檢索服務、參考鏈接服務、數(shù)字參考咨詢和學科信息門戶五種服務方式為主體、以多種信息資源的綜合利用為目的服務主導型數(shù)字圖書館的結構模式。
5.3 信息系統(tǒng)和知識管理
信息系統(tǒng)是一系列相互關聯(lián)的可以收集、操作與存儲、傳播數(shù)據(jù)和信息,并提供反饋機制以實現(xiàn)其目標的元素或組成部分的集合,通常包括事務處理系統(tǒng)、管理信息系統(tǒng)、決策支持系統(tǒng)和人工智能與專家系統(tǒng)。縱觀信息系統(tǒng)發(fā)展,從"計算機"到"網(wǎng)絡"再到現(xiàn)在對"內(nèi)容"和"智能"的呼喚,系統(tǒng)結構不斷重組,而信息系統(tǒng)的重心,也會從技術向人性發(fā)展開來。隨著人們對計算機系統(tǒng)智能化、網(wǎng)絡化的要求越來越高,信息挖掘和重組備受關注,信息系統(tǒng)運行的安全性、可靠性、精確性面臨著挑戰(zhàn)。
知識管理是以知識資源和知識作為管理對象,研究知識的創(chuàng)造、獲取、加工、存儲、傳播和應用等,形成綿延不斷的知識創(chuàng)新、積累與有效利用的良性循環(huán)系統(tǒng)。在多學科背景下的有效的知識管理,必須建立在理解知識本身的動態(tài)特性的基礎上,正如羅格斯大學的McInerney 教授在《知識管理和知識的動態(tài)本質》一文中的研究。到目前為止,知識管理的理論、應用以及技術的研究內(nèi)容比較豐富,并且與圖書館和知識經(jīng)濟相關的知識管理的研究非常活躍。知識管理是圖書館管理的新內(nèi)容和新模式,以科學研究為先導的知識創(chuàng)新和以信息化為載體的管理創(chuàng)新,相互支撐,互為動力,構成了當代圖書館的新形態(tài)。知識的大眾化、網(wǎng)絡化、移動化、個性化、社會化發(fā)展,傳播數(shù)度加快,形成了知識無處不在的巨大知識庫,而知識管理也將對顯性知識的進行組織管理,促使其傳播和有效利用,轉化為人們的內(nèi)在能力,以及充分利用信息技術挖掘隱性知識,促使其向顯性轉化和交流,以實現(xiàn)知識共享,并協(xié)調管理顯性知識和隱性知識相互作用、相互轉化的過程,實現(xiàn)知識應用與創(chuàng)新。隨著信息、技術與知識越來越密切的結合,也會形成集信息系統(tǒng)的信息搜索、信息處理、數(shù)據(jù)挖掘功能于一體的知識管理系統(tǒng)。
5.4 信息處理
隨著計算機和因特網(wǎng)快速發(fā)展和應用到圖書情報領域,很多交叉學科和領域產(chǎn)生了,CMC(computer-mediated communication)和electronic commerce成為信息處理的一種關鍵技術和手段。CMC在美國的眾多高校中屬于"社會、社區(qū)和組織情報學"專業(yè)的內(nèi)容,它是以計算機為媒介的交流方式,研究的重點主要是不同的網(wǎng)絡通信技術對社會的影響,比如伊利諾伊大學的Walsh教授《計算機輔助交流和科研工作思維交流》就總結了CMC四個方面的使用情況。隨著個人計算機和互聯(lián)網(wǎng)的普及,CMC已經(jīng)越來越廣泛地應用于學校遠程教育中,改變著人們學習和交流的方式。electronic commerce一般屬于"以獎勵為中心的設計"專業(yè)的內(nèi)容[4],它是以計算機技術為基礎,以網(wǎng)絡技術和數(shù)據(jù)庫為依托的信息技術,通過INTRENET尋找信息流等活動,這種交叉學科的應用貫穿了這十年,但主要是在后期發(fā)展壯大成熟起來的,研究內(nèi)容主要集中在電子商務的信用、安全、在線信息服務等方面。雖然當前電子商務在信息安全性、交易體制、法規(guī)建設等方面還存在弊端,但由于美國政府對電子商務的格外重視,加強政府部門宏觀規(guī)劃和指導,制定良好的政策和法規(guī),使得電子商務從"技術實現(xiàn)"階段進入"技術開放和普及"階段。
5.5 引文分析
引文分析是利用各種數(shù)學、統(tǒng)計學以及邏輯方法,對科技期刊、論文、著作等各種分析對象的引用或被引用現(xiàn)象進行分析研究,以便揭示其數(shù)量特征和內(nèi)在規(guī)律,達到評價、預測科學發(fā)展趨勢的目的[5]。圖書情報領域的研究從館際互借和電子期刊的研究逐漸過渡到對引文分析的領域,不僅對來源文獻進行分析,更多的從事引用文獻的分析,分析的對象有作者、期刊、關鍵詞、機構以至于國家地區(qū)等,比如德雷塞爾大學的White教授的論文《可視化一個學科:1972-1995年情報學作者共引分析》對12個重點期刊作者共引進行分析;印第安那大學的Cronin 在《身份創(chuàng)立和圖片制造者:采用引文分析和深度描述來定位作者的位置》一文里描述了作者引用和被引用情況。信息化環(huán)境下催生的知識經(jīng)濟驅動、計算機科學統(tǒng)計軟件的引進以及各大數(shù)據(jù)庫商所進行的web統(tǒng)計分析促使引文分析在該領域內(nèi)穩(wěn)定的發(fā)展,并出現(xiàn)了知識圖譜、鏈接分析等新的增長點,新的核心理論創(chuàng)新研究將會成為引文分析的研究前沿。
5.6 信息技術的革新及外包
近些年來,信息技術發(fā)展非常迅速,虛擬技術、嵌入技術廣泛應用,計算機集群技術成為主流,云計算提上日程。對虛擬團隊的合作及企事業(yè)的資源規(guī)劃、方法、研究等逐漸降溫,替代他們的是"外包"策略。信息技術外包,是指將企業(yè)信息的處理和操作職能部分地或全部地承包給外部專業(yè)供應商,由計算機網(wǎng)絡和信息技術、人力資源三方面相結合以完成任務。外包是一種新的戰(zhàn)略管理模型,能夠控制經(jīng)營成本,減少非核心業(yè)務投資,降低風險,例如伊利諾伊大學的Blecic教授在《衛(wèi)生科學圖書館的資源建設和外包:當前實踐的調查》一文中對在美國和加拿大進行了調查,收集圖書館發(fā)展趨勢,包括圖書館調查使用的外包情況,一些圖書館報告外包編目和編寫的書籍,得出經(jīng)濟因素是推動雙方收集的發(fā)展和外包做法的主要動力。美國高校有關信息技術外包的理論和實踐已經(jīng)較為成熟,一般涉及信息技術設備的引進和維護、通信網(wǎng)絡的管理、數(shù)據(jù)中心的運作、信息系統(tǒng)的開發(fā)和維護、備份和災難恢復、信息技術培訓等,信息技術外包的動因及風險研究是研究的重要領域,多元化的外包模式、網(wǎng)絡化的外包組織關系以及跨國家地域的全球化外包趨勢將成為信息技術外包的研究熱點。
通過對美國圖書情報專業(yè)TOP高校2006-2011年被SSCI收錄的文章提取關鍵詞,采用層次聚類分析,通過分析得出這些高校研究的領域主要集中在幾個方面:(1)信息檢索;(2)圖書館及用戶研究;(3) 信息系統(tǒng)和知識管理;(4)信息處理;(5)引文分析;(6) 信息技術的革新及外包。由于《美國新聞和世界報導》公布的美國大學圖書情報專業(yè)排名前20的這些高校是圖書情報專業(yè)的風向標,因此,我們通過分析這些高校在2006-2011年這段時間內(nèi)的研究熱點,可以看出近幾年圖書情報領域的科研方向和趨勢,為我們進一步了解該領域的研究動態(tài)以及進行科學研究提供了一些線索。
[1] Grad School Rankings:Library and Information Studies.[EB/OL].[2012-04-10].http://grad-schools.usnews.rankingsandreviews.com/best-graduate-schools/top-library-information-science-programs/library-information-science-rankings.
[2] 曹 玲,楊 靜,夏 嚴.國內(nèi)競爭情報領域研究論文的共詞聚類分析[J].情報科學,2010,28(6):923-926.
[3] 薛 薇.基于SPSS的數(shù)據(jù)分析[M].第二版.北京:中國人民大學出版社,2006:295-301.
[4] 陳 琦.圖書館專業(yè)發(fā)展.[2007-6-28].http://lib.nwsuaf.edu.cn/old/txt/圖書館專業(yè)發(fā)展.ppt.
[5] 龐景安.科學計量研究方法論[M].北京:科學技術文獻出版社,2002:216-217.
(責任編校 田麗麗)
ClusteringAnalysisoftheHotResearchTopicsinLibraryandInformationScienceoftheTop20AmericanUniversitiesinthe2006-2011Period
Xie Ping1,Zheng Sha2
1.Library of Jiangsu University,Zhenjiang 212013,China; 2.Institute of Science and Technology Information of Jiangsu University, Zhenjiang 212013,China
This article takes as its data source the SSCI articles of the researchers from the top 20 American universities in library and information studies issued by US News & World Report in 2012,uses the BIBEXCEL software to extract key words to construct a dissimilarity matrix and employs the SPSS hierarchical clustering analysis and the “Squared Euclidean Distance” method to analyze the hot research topics via tree diagram analysis.
library and information studies; American university; BIBEXCEL; SPSS
G250
謝 萍,女,1967年生,館員,發(fā)表論文2篇;鄭 莎,女,1988年生,2011級情報學碩士研究生。