亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于科學知識圖譜的情報檢索前沿研究

        2016-05-14 20:55:38趙躍民張銳王章紅
        現代情報 2016年8期
        關鍵詞:科技情報文獻計量知識圖譜

        趙躍民 張銳 王章紅

        〔摘要〕情報檢索是情報研究工作的前提和核心。本文基于科學知識圖譜理論,對近數十年來情報檢索的研究做概貌性描述,運用主題詞詞頻分析、聚類分析、共詞分析、合著分析等文獻計量方法,統(tǒng)計了情報檢索領域1956-2015年的103 733篇學術文獻,對文獻的時間分布、文獻主題分布、關鍵詞詞頻、國家分布、機構分布、作者分布、合著關系等數據進行分析,并通過可視化知識圖譜展示了作者合著關系以及主題詞和關鍵詞的共現關系。結果表明,情報檢索的相關研究正處于快速發(fā)展階段,研究主題明確、地域差距顯著,已經形成了一批具有核心影響力的專家學者。本文通過分析情報檢索領域的發(fā)展脈絡,對于情報學領域的學者進一步尋找研究熱點、挖掘新的研究問題具有一定的參考意義。

        〔關鍵詞〕科技情報;情報檢索;文獻計量;知識圖譜;前沿

        DOI:10.3969/j.issn.1008-0821.2016.08.030

        〔中圖分類號〕G2549〔文獻標識碼〕A〔文章編號〕1008-0821(2016)08-0160-08

        〔Abstract〕Information retrieval is the premise and the core of intelligence research.Based on the theory of mapping knowledge domain,the article reviewed the research progress of information retrieval in recent decades.Applying bibliometrics method such as key words frequency analysis,cluster analysis,co-word analysis,co-author analysis,the article counted 103733 pieces of academic literature in the field of information retrieval from 1956 to 2015.The article took the literature data about time distribution,subject distribution,keywords frequency,regional distribution,research institution distribution,authors distribution and the co-authorship network for analysis.Meanwhile the articles shows the co-authored network and the co-occurrence relations of subject headings and keywords through visual knowledge map.The results showed that Information retrieval research is in rapidly developing stage now.It had the clear researching topics and the significant difference among the regions in the research.The main influential learning leader has formed through the analysis of the development of information retrieval,looking for the research directions and the new hot spots would profit from this article.

        〔Key words〕science and technology information;information retrieval;bibliometrics;mapping knowledge domain

        情報工作的核心是情報檢索。當前,針對情報檢索所開展的研究中,不少成果以綜述、評論、回顧和總結類的論文形式發(fā)表。這類文章對情報檢索的研究成果進行了有效梳理,系統(tǒng)整理了情報檢索的方法論,總結了情報檢索研究的現狀及成果。隨著研究的進展,情報檢索相關的文獻數量已經非常龐大,綜述類文獻一般只能進行研究成果列舉等定性分析;對整體領域的研究動態(tài)把握不足,所選取的樣本往往無法覆蓋研究領域的各個方面,數據不夠全面[1],而針對多學科研究視角和研究方法創(chuàng)新方面,綜述性文獻也有其不足[2]。目前,文獻調研已經由定性研究向定量研究轉變,利用計算機數據挖掘技術,可實現高效精確的分析[3]。因此,我們有必要將情報檢索的研究進行一個多層次、多學科視野下的數據梳理和分析,從而形成一個連貫、全面的研究體系。

        本文對情報檢索的研究以大量的文獻數據為基礎,基于文獻計量思想,在技術統(tǒng)計數據的基礎上形成可視化知識圖譜。以此揭示情報檢索相關領域主題詞的分布以及作者之間的合著情況等信息,同時對該領域的概念延伸和研究熱點進行分析。本文的研究以定量分析為主,定性分析為輔,通過對客觀數據的定量分析,有效驗證了以往學者采用定性分析法得出的分析結果,希望本文基于信息可視化方法的研究結論,能夠有助于科技情報學界進一步把握情報檢索領域的研究脈絡和思路。

        1數據來源與方法

        11數據來源

        本研究數據來源于SCI(Sciences Citation Index),SCI數據庫由美國科學信息研究所于上世紀中葉創(chuàng)辦,是著名的三大檢索系統(tǒng)之一,其檢索結果為學術界進行統(tǒng)計與評價時所公認。鑒于SCI在學術界具有相當的權威,可以作為對科技情報檢索研究趨勢的典型例證。因此本文選取SCI數據庫作為數據來源。

        本文使用Web of Science集成檢索界面進行檢索操作,檢索字段定為“主題”字段,檢索策略為“主題=(information retrieval)OR(patent retrieval)OR(bibliographic retrieval)OR(information search)OR(information technology)OR(informatics)OR(literature metrology)”,檢索時間范圍設定為1900-2015年,共計檢索出121 376篇相關文獻。

        12數據清洗

        數據清洗是文獻計量工作的基礎,且根據經驗,數據清洗的工作量占據文獻計量工作量的大部分。目前數據清洗可以采用人工清洗和計算機自動清洗兩種方式,人工清洗效率低,準確度高,但無法應對大量文獻集,計算機自動數據清洗效率高,但準確度不理想。一般所采用的數據清洗模式為計算機輔助人工清洗。

        本研究中,數據清洗的主要任務是去除重復記錄、無關記錄、補充遺漏記錄。由于所選用數據庫為SCI,其對收錄文獻的重復記錄控制較好,檢索記錄中基本不存在重復數據。故采用 “回溯方式”進行數據清洗,即在制定檢索策略進行初次檢索后,對檢索結果進行分析,通過對“臟數據”出現的原因及形式的分析,回溯至檢索階段,制定數據清洗的方法及策略,去除與研究主題無關數據,循環(huán)實施,直至數據達到應用要求為止,最終得到103 733條符合要求的記錄。

        13文獻計量方法

        在情報檢索領域中,將文獻計量方法、統(tǒng)計學方法、可視化方法相結合,可對文獻進行更深層次的統(tǒng)計分析,形成知識圖譜[4],知識圖譜可以直觀圖像的形式,對學科發(fā)展從不同角度進行剖析,其中需要運用系統(tǒng)化的數據采集和挖掘方法,對知識元素進行計量研究。

        目前,已有一些軟件可進行文獻數據的可視化研究工作,主要針對規(guī)模較大的文獻題錄集合。例如,本文將采用Bibexcel進行計量分析和引文分析。通過對各類軟件的試用,Bibexcel較適合于對文獻進行批量處理,針對本次統(tǒng)計研究,需要先將與情報檢索相關的基礎數據以題錄的形式進行下載,然后進行數據預處理,Bibexcel可將基礎文獻數據以矩陣形式呈現,數據矩陣最終可導入UCINET軟件進行進一步分析,通過網絡分析理論,形成合著網絡數據和關鍵詞共現網絡數據,最后的可視化圖譜生成可由Netdraw軟件進行。所生成的網絡圖譜可以反映作者之間合著關系和情報檢索的發(fā)展趨勢。

        2數據分析

        21文獻數量

        在某一研究領域中,公開發(fā)表的文獻數量是學科熱度的標志之一,研究熱點一般會產生較多文獻,另外,文獻發(fā)表數量的特定拐點,可能預示專業(yè)領域中的分支確立。在圖1中,繪制了情報檢索領域中1900-2015年的文獻公開發(fā)表數量。1900-1956年間關于情報檢索的研究文獻為0,情報檢索領域首篇文獻產生于1956年,到2014年達到高峰,共有9 878篇相關文獻發(fā)表;2015年有所回落,仍有超過9 000篇文獻公開發(fā)表。從圖1數據中看出,1990年之前論文數量較少但隨時間起伏不大,表明1990年之前情報檢索方法研究較平穩(wěn),既無熱點事件也無衰退趨勢;1990年以后情報檢索方法的研究突然升溫,每年均有顯著增長,該時間點同互聯(lián)網技術的興起大致同步,因此有理由認為情報檢索方法的研究與互聯(lián)網革命有顯著相關。而2009年達到階段性高峰后,研究人員對情報檢索的研究有所回落,但仍保持較高水平,可能受到了當前計算機科學和互聯(lián)網技術的瓶頸限制。

        22主題分布

        在SCI數據庫中,對于學科主題有較為明確的劃分,主要依據是文獻主題及關鍵詞,在針對學科的科學分類基礎上,形成了一個由粗到細的完備體系框架。從SCI所收錄的整體文獻庫來看,有關情報檢索主題的論文在超過100個主題類別中出現,若選取含10 000篇文獻的主題為統(tǒng)計對象,結果如圖2所示,依照數量排序,有5個主題包含較多的情報檢索相關文獻。根據圖2所示數據解讀,情報檢索方面文獻主要分布在計算機信息系統(tǒng)、圖書情報學、人工智能、計算機科學理論以及電子工程等主題,其中計算機信息系統(tǒng)和人工智能占據了絕對的主導地位。

        在計算機信息系統(tǒng)領域,學者們通過撰寫情報檢索理論的相關文獻來解決情報檢索的背景、情報檢索基礎理論、情報檢索數學模型等一系列重要的、具體的研究問題。例如,BELKIN,NJ于1982發(fā)表了概述情報檢索背景和理論研究的文章[5]。Lew,Michael S于2006年對基于內容的多媒體情報檢索進行了探索研究[6]。MARON,ME于1960年就情報檢索與相關性、概率型索引的關系進行了研究[7]。

        在人工智能領域,學者們對圖像檢索、基于大眾分類法的檢索理論和情報檢索向量空間模型等一系列的研究課圖11900-2015年國內外文獻產出量題進行了深入探討。Salembier,P于2000年就采用二叉樹表示圖像處理、圖像分割,情報檢索進程的方法理論進行了研究[8]。Hotho,Andreas于2006年從大眾分類法角度,對情報檢索和分級排名進行了研究[9]。Castells,Pablo于2007年研究了基于本體的檢索向量空間模型的適應性問題[10]。

        在圖書情報學領域,學者們主要在情報檢索領域中研究情報數據之間的關系、認知理論以及行為學對情報檢索方法論的影響。Ingwersen,P于1996年從認知角度研究情報檢索的交互問題,分析了情報檢索中的認知要素[11]。ELLIS,D于1989年從行為學方法論入手介紹了情報檢索系統(tǒng)設計[12]。VANRIJSBERGEN,CJ于1977年主要對情報檢索中共現數據的應用理論進行了研究分析[13]。

        在計算機科學理論領域,學者們重點探索了比較前沿的多媒體信息檢索、信息過濾和情報檢索模型建立。Lew,Michael S于2013年研究了基于內容的多媒體信息檢索[14]。BELKIN,NJ于2013年研究了情報檢索中的信息過濾和垃圾信息去除[15]。2013年SALTON,G就情報檢索的擴展布爾模型進行了研究[16]。

        圖3顯示,在SCI數據庫文獻中,以情報檢索作為主題的文獻研究中,以計算機信息系統(tǒng)為研究方向的論文在1995年開始有大幅度增長,學者們開始就情報檢索的背景、情報檢索基礎理論、情報檢索數學模型等一系列問題展開研究。以人工智能為研究方向的論文在1995年開始有大幅度的增長,學者們對該主題的研究開始集中在對圖像檢索、基于大眾分類法的檢索理論和情報檢索向量空間模型等一系列的課題。以計算機科學理論為研究方向的論文在2002年開始增長較大,學者們對該主題的研究主要從多媒體信息檢索、信息過濾和情報檢索模型等方面展開。而以圖書情報科學為研究方向的論文則保持平穩(wěn)的發(fā)展。在1995-2008年情報檢索相關領域的各個主題的研究處于高峰期,可能與該期間的計算機技術和互聯(lián)網技術迅速發(fā)展有關,這兩方面的技術變革極大的改觀了傳統(tǒng)情報檢索方式。

        23期刊出版物分析

        通過對JCR的分析,2015年,SCI共對3 000余種期刊進行了影響因子分析,其中情報學領域有116種期刊,計算機科學技術領域有333種期刊,超過600種期刊刊載了情報檢索相關的文獻。圖4列舉了發(fā)文量前十的期刊。根據布拉德福定律有關核心期刊的論述,情報檢索核心期刊可劃定在這些期刊中。

        從各雜志每年的發(fā)稿數量來看,Lecture Notes in Computer Science以情報檢索為主題的論文數量處于絕對領先地位,其他雜志發(fā)文數量呈波動性。在2009年后各雜志的相關發(fā)文數量均有回落,表明了該研究領域的熱度下降??梢灶A見Lecture Notes in Computer Science在未來會成為情報檢索研究的領頭羊。

        24被引分析

        被引用頻次不一定反映論文質量,被引頻次高不一定質量高,但是影響力一般較大。因此高被引頻次具有一定參考意義。表1列舉了被引頻次300以上的文獻,從地域上看主要分布在美國、英國、荷蘭,被引頻次居首的是TASK COMPLEXITY AND CONTINGENT PROCESSING IN DECISION-MAKING-INFORMATION SEARCH AND PROTOCOL ANALYSIS,由美國學者PAYNE,JW發(fā)表。這篇文章從認知心理學的視角就情報檢索和語言對負責決策的影響展開研究。使用兩個流程跟蹤技術,明確的信息搜索和口頭協(xié)議,來檢查信息處理策略主題以達成決策使用。在執(zhí)行復雜決策任務時,使用的主題搜索策略符合補償決策過程。

        25國家和機構分析

        由于不同地域優(yōu)勢不同,文獻發(fā)表呈現出地域差別,某主題的發(fā)文量可能在某地域居多,這反映了在某一領域中,不同地域的水平差距。按照國別進行不同國家情報檢索主題的文獻統(tǒng)計,產出量從高到低為美國、中國、英國、加拿大、日本、德國、法國。其中,除中國外,其余國家均為發(fā)達國家,但中國為發(fā)文量僅次于美國的第二名,說明由于競爭情報、專利分析等信息服務在中國的推廣,極大地促進了我國學術界對于情報檢索方法論方面的研究。

        26作者分析

        論文發(fā)表一般呈現出少數學者生產大多數論文著作的現象,在學科逐步進展的同時,馬太效應也會出現,這種少數學者發(fā)文量遠多于大多數學者的規(guī)律,形成該領域的學術帶頭人現象,同時學科帶頭人的學術交流也非常活躍。

        在SCI數據庫以情報檢索為主題的文獻研究中,形成了以SPINK A、JARVELIN K、WILLETT P等為核心的高產作者,他們每個人的相關論文數量均在15篇以上。

        在SCI數據庫中,可進行作者頻率統(tǒng)計,對主題為情報檢索的文獻進行作者統(tǒng)計,統(tǒng)計結果共計1 001人次,近300名作者發(fā)表文獻5篇以上。作者合著網絡關系如圖9所示。從合著關系網來看Diaz-Galiano MC、Sanderson M在合作網絡關系中居于中心位置,這說明學術交流及合作對其產生較大促進作用。從合作頻次來看Bordogna G和Pasi G合作了11次,Fernandez-Luna GM和Huete JF合著了10次,合作頻次居于前列。圖8情報檢索方法研究文獻發(fā)文量15篇以上作者

        27關鍵詞分析

        關鍵詞的統(tǒng)計分析可以指示學科發(fā)展方向,經過統(tǒng)計,在1900-2015年間發(fā)表的情報檢索相關文獻中,關鍵詞數量較多,達到1 000以上,將詞頻前10的關鍵詞進行統(tǒng)計,如表2所示,詞頻前10的關鍵詞數量占總比的141%。圖10表示了關鍵詞之間的共現關系,通過關鍵詞共現分析發(fā)現,關鍵詞以情報檢索為中心,以本體論、擴展查詢、算法設計為研究熱點,各關鍵詞之間高度相關。

        3研究結論

        情報檢索理論方法是科技情報工作的核心。基于多年從事科技情報工作的經驗和思考,本文對近數十年來情報檢索的研究進展做概貌性描述。研究發(fā)現,學術界對情報檢索的研究始于1956年,由于計算機和互聯(lián)網技術的革命,1990年左右對于科技情報檢索的研究有了突發(fā)式增長,對情報檢索的工作方式產生了極大影響,計算機自動化操作和互聯(lián)網信息獲取取代了大量手工勞動,使情報檢索的效率大大提高;通過對情報檢索研究主題的分析表明:該領域研究主題主要集中在計算機信息系統(tǒng)、圖書情報科學領域;通過對情報檢索研究工作的地域分布進行統(tǒng)計,可知美國居于領先位置,在發(fā)文數量和質量方面都優(yōu)于其他地區(qū)。中國具有一定的發(fā)文數量優(yōu)勢。同時,由于學術交流合作對于研究視野的開闊具有促進作用,中國學者可更多地展開同發(fā)達國家的學者的學術溝通,可優(yōu)先選取在合著網絡中處于中心的作者。依據本文的數據統(tǒng)計,在期刊雜志的選擇方面,Lecture Notes in Computer Science、Information Processing Management等期刊是關于情報檢索研究領域的重點投稿期刊,匯集了SCI數據庫中最權威的期刊文獻,可以重點向這些期刊進行投稿。在研究合作者的選擇方面,可以重點爭取與合著關系網絡中的處于核心位置的作者進行合作,從合著關系網中看出,Diaz-Galiano MC、Sanderson M居于合著網絡中的核心位置,顯示了其在知識交換中獲益最多。關鍵詞詞頻趨勢預示研究方向熱點,本文繪制了關鍵詞圖譜,揭示了情報檢索的未來研究熱點,主要可能集中于本體論、查詢擴展、算法設計等方面。

        情報檢索作為科技情報工作的核心,針對情報檢索的研究還需要進一步的方法探討,基于文獻計量的定量研究是其發(fā)展方向,其中需要更多的使用自動化統(tǒng)計分析軟件和可視化軟件。同時限于數據庫選擇和樣本收集的局限性,雖然SCI數據庫具有較高權威代表性,但仍有遺漏可能;希望本文對情報檢索領域的知識圖譜分析,能夠幫助研究人員開拓思路,在未來研究中進一步解決更多問題,改進不足。

        參考文獻

        [1]崔智敏,寧澤逵.定量化文獻綜述方法與元分析[J].統(tǒng)計與決策,2010,(19).

        [2]劉仲林.交叉學科分類模式與管理沉思[J].科學學研究,2004,(6).

        [3]邱均平,沙勇忠.信息資源管理學[M].北京:科學出版社,2011:1-449.

        [4]姚宏魏,海玥.基于科學知識圖譜的盈余管理研究前沿分析[J].管理評論,2012,(6).

        [5]Belkin N J,Oddy R N,Brooks H M.ASK for information retrieval:Part I.Background and theory[J].Journal of documentation,1982,38(2):61-71.

        [6]Lew M S,Sebe N,Djeraba C,et al.Content-based multimedia information retrieval:State of the art and challenges[J].ACM Transactions on Multimedia Computing,Communications,and Applications(TOMCCAP),2006,2(1):1-19.

        [7]Maron M E,Kuhns J L.On relevance,probabilistic indexing and information retrieval[J].Journal of the ACM(JACM),1960,7(3):216-244.

        [8]Salembier P,Garrido L.Binary partition tree as an efficient representation for image processing,segmentation,and information retrieval[J].Image Processing,IEEE Transactions on,2000,9(4):561-576.

        [9]Hotho A,J?schke R,Schmitz C,et al.Information retrieval in folksonomies:Search and ranking[M].Springer Berlin Heidelberg,2006.

        [10]Castells P,Fernandez M,Vallet D.An adaptation of the vector-space model for ontology-based information retrieval[J].Knowledge and Data Engineering,IEEE Transactions on,2007,19(2):261-272.

        [11]Ingwersen P.Cognitive perspectives of information retrieval interaction:elements of a cognitive IR theory[J].Journal of documentation,1996,52(1):3-50.

        [12]Ellis D.;A behavioral approach to information retrieval system design[J].Journal of Documentation,1989,45(3):171-212.

        [13]van Rijsbergen C J.A theoretical basis for the use of co-occurrence data in information retrieval[J].Journal of documentation,1977,33(2):106-119.

        [14]Lew M S,Sebe N,Djeraba C,et al.Content-based multimedia information retrieval:State of the art and challenges[J].ACM Transactions on Multimedia Computing,Communications,and Applications(TOMCCAP),2006,2(1):1-19.

        [15]Belkin N J,Croft W B.Information filtering and information retrieval:two sides of the same coin?[J].Communications of the ACM,1992,35(12):29-38.

        [16]Salton G,Fox E A,Wu H.Extended Boolean information retrieval[J].Communications of the ACM,1983,26(11):1022-1036.

        (本文責任編輯:馬卓)

        猜你喜歡
        科技情報文獻計量知識圖譜
        基于數據工程的國防科技情報生態(tài)體系構建
        銅陵市科技情報工作存在的問題與發(fā)展對策
        安徽科技(2018年9期)2018-12-31 12:54:31
        加強科技情報檔案管理工作的建議
        我國醫(yī)學數字圖書館研究的文獻計量分析
        國內外智庫研究態(tài)勢知識圖譜對比分析
        現代情報(2016年11期)2016-12-21 23:54:23
        國內外政府信息公開研究的脈絡、流派與趨勢
        現代情報(2016年10期)2016-12-15 12:27:57
        近十五年我國小學英語教學研究的熱點、問題及對策
        基于知識圖譜的產業(yè)集群創(chuàng)新績效可視化分析
        智富時代(2016年12期)2016-12-01 16:28:41
        基于文獻計量分析我國生物科學素養(yǎng)研究狀況(2001~2016年)
        基于知識圖譜的智慧教育研究熱點與趨勢分析
        午夜tv视频免费国产区4| 日日拍夜夜嗷嗷叫国产| 亚洲熟女乱色综合亚洲av| 成人伊人亚洲人综合网站222| 国产成人AV乱码免费观看| 国产91会所女技师在线观看| 乱人伦精品视频在线观看| 精品国产精品久久一区免费式| 欧美成人高清手机在线视频| 日本免费影片一区二区| 亚洲第一狼人天堂网亚洲av| 1000部夫妻午夜免费| 日本精品免费一区二区三区 | 国产精品毛片无遮挡| 亚洲av中文无码字幕色三| 久久丁香花综合狼人| 美女脱掉内裤扒开下面让人插 | 亚洲日本人妻少妇中文字幕| 精品久久久久久无码中文字幕| 国内精品视频一区二区三区| 91久久精品一二三区蜜桃| 日韩精品视频在线观看无| 免费无码一区二区三区蜜桃| 国产成人v爽在线免播放观看| 国产一区二区三区色区| 亚洲美女av一区二区在线| 国产精品亚洲一区二区三区在线| 麻豆国产av尤物网站尤物| 蜜桃码一区二区三区在线观看| 国产午夜福利片在线观看| 久久这里只精品国产免费10| 亚洲国产精品综合久久20| 高清不卡日本v二区在线| 品色堂永远免费| 国产中文制服丝袜另类| av免费在线观看在线观看| 一个人看的www片免费高清视频 | 麻豆精品国产专区在线观看| 欧美精品中文字幕亚洲专区| 精品91精品91精品国产片| av在线免费观看男人天堂|