亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于共現(xiàn)網絡和多元統(tǒng)計技術的信息檢索研究結構分析

        2018-09-21 11:12:00張輝王菲
        新世紀圖書館 2018年6期
        關鍵詞:信息檢索語義信息

        張輝 王菲

        摘 要 論文以2006-2015年國內信息檢索領域的論文為研究對象,展示我國信息檢索領域研究的階段性發(fā)展變化。經過統(tǒng)計分析,得出近十年來信息檢索領域文獻的年度分布;利用詞頻統(tǒng)計和共現(xiàn)關系分析技術對提取的題錄信息進行分析得出高頻關鍵詞和共現(xiàn)關系網絡;采用共詞分析和多元統(tǒng)計技術對高頻關鍵詞進行處理,得出信息檢索領域的研究熱點。

        關鍵詞 信息檢索 詞頻分析 共詞聚類分析 社會網絡分析

        分類號 G254.9

        DOI 10.16810/j.cnki.1672-514X.2018.06.017

        信息檢索(Information Retrieval)是指按照特定的檢索目的,從信息源中找出符合用戶需要的信息的過程。隨著信息社會和知識經濟的發(fā)展,信息的來源渠道日趨廣泛,數(shù)量與日俱增,獲取信息的途徑也越來越多樣化。信息檢索相關的文獻和研究也越來越多,然而國內的相關研究大多是從信息檢索的特定主題領域出發(fā)、以針對少量文獻的定性評述為主。為了從總體上定位信息檢索領域的研究熱點,描繪國內信息檢索研究的宏觀圖景,本文采用詞頻分析、共詞分析等常用的文獻計量分析方法,選用中國知網數(shù)據(jù)庫中將近10年(2006-2015年) 國內信息探索研究文獻進行系統(tǒng)的梳理和統(tǒng)計,期望為該領域研究提供借鑒。

        1 近十年信息檢索文獻數(shù)量統(tǒng)計

        在一個學科的漫長發(fā)展時期內,某段時間發(fā)表的論文數(shù)量能反應出該學科在此時間段的成長歷程和發(fā)展方向。本文針對在中國知網以“信息探索”為檢索詞檢索出的8783篇樣本論文,采用文獻增長邏輯模型計算2006-2015年間的逐年文獻累積量,利用EXECL進行回歸擬合分析,結果顯示本文選取的樣本文獻的實際增長曲線與理論增長曲線擬合度(R2) 達到0.9278,這表明對選取的8783篇文獻的增長分析具有科學的參考意義,通過對此時段文獻的分析驗證可以作出對我國信息檢索研究發(fā)展階段的初步判斷。

        從2006-2015文獻年度統(tǒng)計情況中可以看出,近十年信息檢索的發(fā)展大致分為兩個階段。第一階段為2006-2011年,每年的文獻量都在900篇左右,在2008年文獻量達到1002篇,但2011年之后出現(xiàn)了一定幅度的下降;第二階段為2012-2015年,信息檢索研究的熱情稍微有所消退,文獻數(shù)量逐漸減少,但每年維持在800篇的狀態(tài),趨于平衡。從總體上看,我國信息檢索論文的發(fā)表數(shù)量呈連續(xù)、均衡遞增趨勢,只是增長速度緩慢。根據(jù)文獻計量學奠基人普賴斯的“科學文獻增長四階段”理論,這在一定程度上表明,我國的信息檢索研究已處于成熟階段。

        2 近十年信息檢索發(fā)文核心作者統(tǒng)計

        由于所選取的8783篇樣本論文中,很大一部分是合著論文,本文為了方便統(tǒng)計,采用平權處理的方法,分別記為每位作者發(fā)文一篇,得出的論文總數(shù)會高于實際的論文數(shù)量。根據(jù)十年間信息檢索領域期刊論文的總發(fā)文量得出的作者人數(shù)統(tǒng)計表(表1) 所示,2006-2015年間共有12 644位作者參與發(fā)表了信息檢索領域的相關文章,其中79.46%的作者發(fā)表了一篇文獻,12.88%的作者發(fā)表了2篇文獻。

        普賴斯在洛特卡定律的基礎上提出了“杰出科學家”或“高產作者”的概念,并提出了著名的普賴斯定律,即完成專業(yè)論文總和一半的核心作者的人數(shù)在數(shù)量上等于該專業(yè)作者總數(shù)的平方根。根據(jù)普賴斯定律并基于發(fā)文量的作者人數(shù)統(tǒng)計得出,我國信息檢索領域的核心作者應為發(fā)文量最多的前112人。

        在特定研究領域的文獻體系當中,科學文獻之間都是相互聯(lián)系的,并不是孤立存在的個體,文獻之間的相互引證恰如其分地展現(xiàn)了這些文獻間的相互關系。2005年,美國科學家Hirsch首次提出把數(shù)量指標和質量指標結合起來作為評價學術的新指標,用h指數(shù)來測評各個學科領域的核心科學家[1]。一般認為,科學家的h指數(shù)越高意味著其在該學科領域的影響力越大。本文在112位核心作者中,選取發(fā)文量在10篇以上的作者進行h指數(shù)分析,得出2006-2015年信息檢索領域影響力最大的24位作者,見表2。

        本文將在2006-2015年間所寫的信息檢索領域的全部文章按被引次序從高到低進行排序,然后根據(jù)h指數(shù)計算方法[2],以被引量仍然大于論文序號的文章作為最后一篇論文,并以此論文的被引量作為h指數(shù)??梢钥闯?,武漢大學的吳丹教授、中山大學的鄒永利教授等,論文的被引頻次非常高,可以認為這些著者是該研究領域發(fā)展的領頭人,是近十年信息檢索領域科研群體的實質核心。

        3 基于詞頻統(tǒng)計的共現(xiàn)網絡分析

        本文將選取的8783篇論文的題錄信息導入SATI軟件,對2006-2015年信息檢索領域學術論文中的關鍵詞進行詞頻統(tǒng)計。其中總詞頻頻次超過80的前27個關鍵詞的累計詞頻達7246,占這10年間總詞頻數(shù)(36 492) 的19.85%。統(tǒng)計結果符合集中分散的“二八定律”,說明這些高頻關鍵詞能夠代表信息檢索近10年來的研究熱點[3]。27個高頻關鍵詞詞頻統(tǒng)計和排列結果如表3所示,從信息檢索高頻關鍵詞及頻次統(tǒng)計表中可以清晰的看出近年來信息檢索領域的研究熱點。

        除了詞頻統(tǒng)計外,本文還采用了SATI和Ucinet軟件對高頻關鍵詞的共現(xiàn)關系進行了研究,并對信息檢索領域的熱點主題進行了分析。首先采用SATI軟件生成27個高頻關鍵詞的共現(xiàn)矩陣,然后將得到的共現(xiàn)矩陣導入社會網絡分析軟件Ucinet,利用可視化繪圖軟件 NetDraw 繪制出高頻關鍵詞共現(xiàn)網絡,原始矩陣中關鍵詞的共現(xiàn)關系在社會網絡圖譜中得到完整展現(xiàn)。圖中圓點代表高頻關鍵詞結點,結點越大在網絡中的作用越大;結點之間的關系用實線連接,實線越粗,代表相互之間的關系越強,處于網絡圖中心位置的關鍵詞反映出受關注度高的主題[4]。從圖1信息檢索領域文獻關鍵詞共現(xiàn)網絡示意圖中可以看出高頻關鍵詞網絡以信息檢索、數(shù)字圖書館為核心結點,這兩個結點與其他結點的聯(lián)系最緊密,是該領域的核心關鍵詞;其次,搜索引擎、本體和高校圖書館等節(jié)點在網絡中也起了比較重要的作用,與其他關鍵詞有較強的聯(lián)系,能夠反映出該領域的研究內容。從整個網絡來看,核心關鍵詞以外的結點聯(lián)系也較為緊密,說明信息檢索領域已處于成熟期,形成了比較集中的研究主題。

        4 基于共詞分析和多元統(tǒng)計技術的信息檢索研究結構分析

        共詞分析思想來源于文獻計量學的引文耦合與共被引概念,即當兩個能夠表達某一學科領域研究主題的專業(yè)術語在同一篇文章出現(xiàn)時,表明這兩個詞之間具有一定的內在關系,并且出現(xiàn)的次數(shù)越多,表明他們的關系越密切、距離越近[5]。根據(jù)這種“距離”,利用聚類分析的方法,對某一學科內的關鍵詞加以分類,有利于理清該學科領域內各大主題間的關系,更加直觀地呈現(xiàn)出該學科的主要研究結構。

        在8783篇學術論文中,利用SATI軟件進行數(shù)據(jù)格式的轉換、文獻題錄信息的抽取、關鍵詞頻次的統(tǒng)計,得到27個高頻關鍵詞兩兩同時出現(xiàn)的頻次,形成一個高頻關鍵詞共詞矩陣。高頻關鍵詞共詞矩陣中列出的是關鍵詞兩兩共現(xiàn)頻次的觀察矩陣,反映的是一種表象,因為兩個關鍵詞共現(xiàn)頻次的多少直接受兩個關鍵詞各自詞頻大小的影響[3]。為了準確揭示關鍵詞之間的共現(xiàn)關系,消除原始共詞矩陣絕對值差異的影響,本文使用SATI和Matlab軟件,采用表示關鍵詞共現(xiàn)相對強度的Salton系數(shù)[3]對矩陣進行標準化處理,計算公式為:Sij=nij/(ni×nj)1/2。式中取值在0~1之間,代表關鍵詞i和j共同出現(xiàn)的概率,分別表示關鍵詞i和j的共現(xiàn)頻次[3]。例如,關鍵詞信息檢索和圖書館的Salton系數(shù) = 55/(2959230)1/2 = 0.066669。矩陣對角線上的數(shù)據(jù)表示某個詞與自身的相關程度,均為1。標準化后的高頻關鍵詞共詞矩陣如表4所示。

        5 基于聚類分析的信息檢索研究結構分析

        聚類分析是把具有相似屬性的對象通過靜態(tài)分類的方法分成更多的子集,同一個子集中的成員對象都有相似的一些屬性。本文采用聚類分析中應用最為廣泛的分層聚類,其分類原理是把每個變量看作一個個體,然后將最“親密”的個體聚成一類,重復上述過程,即可把所有的個體和小類聚集成越來越大的類,直到所有的個體都分類完畢,最后把全部分類結果匯總在一張譜系圖中。我們可以從圖中清楚的看出變量間的親疏關系。共詞矩陣經過標準化后,已由離散變量轉變?yōu)檫B續(xù)變量,利用軟件SPSS21.0進行聚類,選擇歐式距離平方作為變量距離的測度,聚類結果如樹狀圖2所示。

        結合當前國內信息檢索領域對研究結構的分類,并根據(jù)圖2中聚類分析結果,得出信息檢索領域的研究結構,從研究結構可看出信息檢索研究的主要領域為語義檢索、檢索策略、網絡信息檢索技術、信息服務、數(shù)據(jù)庫、信息檢索教育。

        (1) 語義檢索。早在上世紀80年代SIGIR會議論文中已經開始對語義檢索這一主題進行討論,但由于語義信息處理發(fā)展水平的局限,語義檢索研究自上世紀末伴隨著語義網技術的興起與發(fā)展才得以迅速發(fā)展。本體是語義網技術的核心部分,承擔著語義表達的關鍵任務。語義網是一個基于某種知識表達語言的、機器可處理的語義網文檔集合[6]。與傳統(tǒng)網絡檢索相比,語義檢索的優(yōu)點是能夠通過提取信息的語義內容來進一步實現(xiàn)匹配和推理,實現(xiàn)從基本的文獻檢索到知識檢索的轉變。然而目前自然語言處理和人工智能還不能支持完全自動化處理,所以本體構建仍然是語義檢索發(fā)展急需解決的主要問題之一[6]。此外,語義檢索目前還面臨諸如語義的標注、檢索結果的排序以及友好用戶接口的提供等方面的問題。

        (2) 檢索策略。隨著計算機檢索的發(fā)展,“檢索策略”的概念被提出并逐步引起重視。所謂“檢索策略”,是指為實現(xiàn)檢索目標而制定的全盤計劃和方案,是對整個檢索過程的謀劃和指導[7]。用戶在某個檢索系統(tǒng)中實施檢索,其檢索結果是否令人滿意取決于用戶能否制定出正確的檢索策略和該檢索系統(tǒng)是否提供完備的檢索功能。目前網絡信息檢索的發(fā)展仍然面對很多的障礙因素,如存在網絡信息資源建設本身不完善、檢索工具的用戶體驗不便捷和檢索者本身信息素養(yǎng)不高等。為了更好地利用網絡信息檢索技術,規(guī)避網絡技術中的弊端,提高網絡資源檢索的查準率和查全率,我們需要制定更加完善的檢索策略。很多研究者提出通過制定相應的檢索策略來改善檢索方式和檢索程序,真正提升用戶獲取和利用網絡信息資源的能力。從研究近十年的論文可以看出,如何針對不同的檢索障礙制定不同的檢索策略實現(xiàn)檢索目的已成為近期的研究熱點。

        (3) 網絡信息檢索技術。如何在紛雜的網絡資源中快速準確地找到目標信息,開發(fā)與提升網絡信息檢索技術顯得尤為重要。查閱2006-2015年的文章發(fā)現(xiàn),網絡信息檢索技術的研究熱點具體主要是搜索引擎、個性化、數(shù)據(jù)挖掘、向量空間模型、查詢擴展和lucene等。隨著網絡信息檢索技術的發(fā)展,網絡檢索出現(xiàn)智能化、多樣化、可視化、個性化等趨勢,為用戶準確快速檢索互聯(lián)網信息提供了極大的便利。結合聚類分析的樹狀圖與社會網絡圖可以看出,當前網絡信息檢索的熱點集中于網絡信息檢索技術方面的研究,預期對網絡信息檢索技術研究會成為今后的趨勢。

        (4) 信息服務。信息服務是指對用戶信息進行研究以及組織,再根據(jù)用戶特征和需求將有價值的信息傳遞給用戶并解決用戶問題的一系列過程。實質上是指一種信息的傳播、交流和增值的過程。隨著現(xiàn)代計算機技術、網絡通訊技術、多媒體數(shù)字技術等高新技術廣泛應用,不僅改變了傳統(tǒng)圖書館的組織結構,同時也改變了圖書館信息服務方式與理念。面對大數(shù)據(jù)環(huán)境的沖擊,圖書館如何做好信息服務,為用戶提供精、準、全的信息檢索,提高信息服務質量,將成為相關專家愈來愈關注的研究熱點。

        (5) 數(shù)據(jù)庫技術。隨著信息技術的發(fā)展和市場需求的不斷變化,數(shù)據(jù)管理成為用戶管理所需數(shù)據(jù)的一種管理方式,不再只是存儲和管理數(shù)據(jù)。2003年,美國數(shù)據(jù)庫研究人員在集會上提出 Lowell 報告,他們認為:數(shù)據(jù)庫逐漸與網絡、通訊、存儲等相關領域結合,在數(shù)據(jù)的收集、組織、管理及存取方面,采用新的技術,使數(shù)據(jù)庫中數(shù)據(jù)的內容、類型、系統(tǒng)結構的檢索技術正在發(fā)生改變,同時給信息檢索技術帶來巨大影響[8]。同時信息檢索技術的快速發(fā)展在很大程度上又促進了數(shù)據(jù)庫技術的發(fā)展,提高管理和組織信息的能力成為數(shù)據(jù)庫檢索技術的重要發(fā)展方向。由于數(shù)據(jù)資源分布的網絡化,面對互聯(lián)網中豐富的數(shù)據(jù)庫資源,如何實現(xiàn)多數(shù)據(jù)庫的鏈接檢索、聚類檢索、相似檢索、自然語言檢索都成為數(shù)據(jù)庫檢索技術的主要研究課題[8]。

        (6) 信息檢索教育。隨著信息社會的到來,知識經濟的發(fā)展對人才素質提出了新的要求,網絡的出現(xiàn)也帶來了信息教育的革命,如何提高信息素養(yǎng)成為人們日益關注的內容。我國高校信息檢索教育發(fā)展的障礙因素有很多,比如很多高校圖書館并沒有充分發(fā)揮自身在學校中的職能作用,學校相關部門對信息檢索教育的重視程度不夠,只將信息檢索課程作為“選修課”,這使得學生對信息檢索課程的關注度和重視程度大大降低,從而影響了整個信息檢索課程的教學質量與教學效果。從實踐方面來看,很多高校信息檢索教育僅僅是從理論的角度開展,沒有很好地和其他學科結合起來,與教師科研課題教學和學生論文寫作的聯(lián)系也非常少,最終導致信息檢索教學實施的效果不理想。在歐美等發(fā)達國家,信息素養(yǎng)教育已經形成了相對比較完整的教育體系,無論是在學前、在校、還是離校,不同層次的教育體系中都具有完備的信息檢索教育課程,與他們相比,我國在信息檢索教育方面仍然存在著很大的差距。

        6 結語

        本文對近10年來國內信息檢索領域文獻進行了統(tǒng)計分析,從詞頻統(tǒng)計和共現(xiàn)關系,對研究熱點和主題進行了分析,并通過共詞分析和多元統(tǒng)計技術對信息檢索領域的研究結構進行了統(tǒng)計,歸納出信息檢索領域在語義檢索、信息檢索策略、網絡信息檢索技術、信息服務、數(shù)據(jù)庫、信息檢索教育等六個方面的研究進展。根據(jù)相關文獻以及聚類結構進一步分析,從發(fā)文增長規(guī)律、核心作者以及高頻關鍵詞分析總結出近10年信息檢索領域在研究方面處于一種穩(wěn)定性、規(guī)律性的發(fā)展趨勢中,國內對信息檢索領域的研究已經深入到信息檢索的各個領域,呈現(xiàn)出百花齊放的研究態(tài)勢,特別在由傳統(tǒng)的理論研究向技術研究和服務研究方面滲透過程中,數(shù)據(jù)挖掘、云計算以及智能信息檢索的發(fā)展以及個性化信息服務研究等范圍不斷得到擴展。

        參考文獻:

        韓曾麗.基于h指數(shù)和知識圖譜的學科研究熱點分析:以我國圖情領域高被引論文為例[J].現(xiàn)代情報,2012(9):163-167.

        劉強,丁瑞常.SSCI對我國學者學術研究的影響:以教育學科為例[J].比較教育研究,2014(7):87-92.

        邱均平,丁敬達,周春雷.1999-2008年我國圖書館學研究的實證分析(上)[J].中國圖書館學報,2009(5):72-79.

        張紅春,卓越.國內社會保障研究的知識圖譜與熱點主題:基于文獻計量學共詞分析的視角[J].公共管理學報,2011(4):111-121,128.

        郭順利,張向先,李秀霞.我國PIS領域博碩士學位論文的文獻計量分析[J].情報科學,2015(12):71-76.

        黃敏,賴茂生.語義檢索研究綜述[J].圖書情報工作,2008(6):63-66.

        胥林.Web2.0環(huán)境下信息檢索策略研究[J].中國科技信息,2013(15):89,93.

        沙則勛.數(shù)據(jù)庫及其在信息檢索中的發(fā)展趨勢[J].牡丹江師范學院學報(自然科學版),2008(4):15-16.

        猜你喜歡
        信息檢索語義信息
        語言與語義
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        醫(yī)學期刊編輯中文獻信息檢索的應用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        “上”與“下”語義的不對稱性及其認知闡釋
        基于神經網絡的個性化信息檢索模型研究
        認知范疇模糊與語義模糊
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        教學型大學《信息檢索》公選課的設計與實施
        河南科技(2014年11期)2014-02-27 14:10:19
        公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
        圖書館界(2013年5期)2013-03-11 18:50:29
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        丰满少妇一区二区三区专区| 国产午夜精品视频观看| 性生大片免费观看性少妇| 久久久亚洲欧洲日产国码aⅴ| 99精品免费久久久久久久久日本| 久久亚洲道色宗和久久| 国产精品三级1区2区3区| 日韩精品免费一区二区三区观看| 欧美真人性野外做爰| 国产日韩成人内射视频| 久久亚洲道色宗和久久| 久久国产精品国产精品久久| 婷婷久久精品国产色蜜蜜麻豆| 亚洲国产精品成人久久| 午夜成人理论无码电影在线播放| 久久水蜜桃亚洲av无码精品麻豆| AV在线中出| 亚洲免费在线视频播放| 久久久久夜夜夜精品国产| 丁香五月缴情综合网| 国产激情一区二区三区在线蜜臀| 人妻少妇精品视频专区二区三区| 久久久久久久久无码精品亚洲日韩 | 国产自拍一区在线视频| 久久精品中文闷骚内射| 国产成人精品综合在线观看| 91香蕉视频网| 色婷婷一区二区三区四区| 中文字幕日韩精品中文字幕| 免费的日本一区二区三区视频| 欧美大屁股xxxxhd黑色| 女人的天堂av免费看| 高清中文字幕一区二区三区| 人妻精品久久无码区| 亚洲成av人片在线观看无码| 蜜桃一区二区三区在线看| 日本免费大片一区二区三区| 性做久久久久久久| 欧美老妇与zozoz0交| 中文AV怡红院| 少妇被猛烈进入中文字幕 |