亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web的中文期刊查收查引跨庫檢索系統(tǒng)研發(fā)

        2016-03-21 10:51:00曉梅
        中華醫(yī)學圖書情報雜志 2016年6期
        關鍵詞:檢索系統(tǒng)數(shù)據(jù)源異構

        , , ,,,曉梅,

        查收查引又稱為論文收錄及被引用檢索,主要通過文獻題名、作者、作者單位、期刊名稱、發(fā)表時間等檢索字段查找論文被數(shù)據(jù)庫收錄及引用情況,并依據(jù)檢索結(jié)果出具引證報告,為科研評價提供依據(jù)[1]。

        作為國內(nèi)科研績效評價的重要工具,該服務已成為國內(nèi)高校圖書館等信息服務機構提供的基礎信息服務。據(jù)統(tǒng)計,96所(占81%)“211”工程大學圖書館開展了這項業(yè)務,而且業(yè)務量逐年快速增長[2]。

        國內(nèi)開展的引證檢索服務主要依靠手動方式完成,需要查收查引人員在多種引文數(shù)據(jù)庫中重復檢索文獻收錄和引用情況,對檢索結(jié)果進行去重去自引、轉(zhuǎn)換格式后出具檢索報告。存在多數(shù)據(jù)源檢索導致的工作量倍增[3]、錄入錯誤與格式不規(guī)范造成的查重困難、手工生成標準報告費時費力、檢索工作重復低效等問題。因此,必須利用軟件工具輔助人工完成查收查引并自動統(tǒng)計與整理形成引證報告[4]。

        查收查引系統(tǒng)較早可追溯到北京大學圖書館的論文查收查引工具[3,5]。利用網(wǎng)頁分析技術對SCI、EI數(shù)據(jù)源進行自動網(wǎng)絡查詢,如中國科技大學圖書館利用Excel和EndNote Web提高論文查收查引的工作效率[6];中國科學院軟件研究所研發(fā)的“引證報告自動生成原型系統(tǒng)”[4,7],可對SCI數(shù)據(jù)庫統(tǒng)計區(qū)分自引與他引。

        基于國內(nèi)中文數(shù)據(jù)源查收查引的需要,解放軍醫(yī)學圖書館開發(fā)了基于Web的查收查引跨庫檢索系統(tǒng)。它通過頁面分析技術對CNKI、CSCD、CMCI、萬方等多個異構中文期刊引文數(shù)據(jù)庫進行檢索,功能覆蓋收錄檢索、引文檢索、生成引證報告等環(huán)節(jié),并結(jié)合精確匹配和模糊匹配,通過Levenshtein編輯距離計算相似度對重復文獻進行查重去重。

        1 跨庫檢索系統(tǒng)架構與步驟

        1.1 系統(tǒng)架構

        跨庫檢索系統(tǒng)架構如圖1所示。三層體系結(jié)構主要由客戶端Web頁面、服務器端檢索服務總線、異構多數(shù)據(jù)源組成,通過檢索服務總線屏蔽各個異構數(shù)據(jù)源的位置、檢索服務接口等細節(jié)差異,通過客戶端Web頁面提供檢索入口和結(jié)果展示。

        客戶端Web頁面是用戶進行檢索的界面和入口,用戶通過檢索界面登錄到跨庫檢索系統(tǒng),輸入檢索條件如題名、作者、作者單位、刊名、年代范圍,顯示檢索結(jié)果并進行人工整理。

        服務器端檢索服務總線是系統(tǒng)的核心,接收來自客戶端Web頁面的檢索條件,按照異構數(shù)據(jù)源的要求將檢索條件轉(zhuǎn)換成新的檢索表達式,并轉(zhuǎn)發(fā)給多個異構數(shù)據(jù)源進行檢索。獲得異構數(shù)據(jù)源返回的檢索結(jié)果后,檢索服務總線通過頁面分析提取文獻元數(shù)據(jù),結(jié)合精確匹配和模糊匹配,檢測相似文獻進行數(shù)據(jù)分組合并或去重排序,最后將得到的檢索結(jié)果返回給客戶端Web頁面。

        異構多數(shù)據(jù)源是跨庫檢索系統(tǒng)的基礎。異構數(shù)據(jù)源數(shù)據(jù)庫具有不同的資源覆蓋范圍,使用不同的數(shù)據(jù)格式、檢索方式。服務器端檢索服務總線通過數(shù)據(jù)源配置,從異構多數(shù)據(jù)源獲得檢索結(jié)果。

        圖1查收查引跨庫檢索系統(tǒng)架構

        1.2 主要步驟

        查收查引跨庫檢索系統(tǒng)主要操作步驟如下。

        查收查引工作人員在客戶端Web頁面輸入文獻題名、作者、作者單位、期刊名稱、發(fā)表時間等檢索字段,并提交檢索請求進行收錄檢索。服務器端檢索服務總線獲得Web頁面提交的檢索請求后,根據(jù)多數(shù)據(jù)源配置,將檢索請求轉(zhuǎn)換成符合各個異構數(shù)據(jù)源要求的檢索表達式,通過多線程并發(fā)檢索多個異構數(shù)據(jù)源。異構數(shù)據(jù)源根據(jù)提交的檢索表達式進行檢索,并將檢索結(jié)果返回檢索服務總線。檢索服務總線接收各異構數(shù)據(jù)源的檢索結(jié)果后,通過頁面分析提取檢索結(jié)果中的元數(shù)據(jù),結(jié)合精確匹配與模糊匹配,將題名、第一作者、來源期刊、出版年份相同的分為一組,將檢索結(jié)果返回給客戶端Web頁面,同時顯示該文獻的來源數(shù)據(jù)庫。查收查引工作人員查看收錄檢索結(jié)果,選擇部分結(jié)果文獻,繼續(xù)提交引文檢索請求。檢索服務總線將引文檢索請求通過多線程轉(zhuǎn)發(fā)給各異構數(shù)據(jù)源,異構數(shù)據(jù)源再將引文檢索結(jié)果返回給檢索服務總線;檢索服務總線接收各異構數(shù)據(jù)源返回的引文信息,對引文檢索結(jié)果進行相似性檢測比對去重,經(jīng)去重和排序后,以統(tǒng)一格式將結(jié)果返回客戶端Web頁面。最后查收查引工作人員由Web頁面提交請求,生成格式規(guī)范的引證報告。

        2 查收查引跨庫檢索系統(tǒng)的功能與實現(xiàn)

        系統(tǒng)采用.NET框架作為開發(fā)平臺,使用標準的Internet協(xié)議創(chuàng)建分布式Web應用,使用IIS服務器為應用提供運行環(huán)境。用戶登錄到系統(tǒng)后顯示的Web頁面如圖2所示。系統(tǒng)缺省對中國知網(wǎng)(CNKI)、萬方數(shù)據(jù)、中國科學引文數(shù)據(jù)庫(CSCD)、中國生物醫(yī)學期刊引文數(shù)據(jù)庫(CMCI)4個數(shù)據(jù)源進行統(tǒng)一檢索,用戶也可只對其中的部分進行查收查引檢索。

        圖2 系統(tǒng)Web頁面

        檢索分為以下兩個步驟。

        第一步是收錄檢索。用戶登錄后,輸入檢索條件,點擊“開始檢索”向服務器發(fā)出檢索請求。檢索服務總線根據(jù)配置信息,把檢索條件轉(zhuǎn)換成對應于不同數(shù)據(jù)源的實際檢索條件,并發(fā)地向所有數(shù)據(jù)源檢索系統(tǒng)發(fā)出檢索請求。數(shù)據(jù)源檢索系統(tǒng)完成檢索任務后將檢索結(jié)果傳回檢索服務總線,然后總線從各數(shù)據(jù)源返回的檢索結(jié)果中提取元數(shù)據(jù),按“題名+第一作者+刊名+年份”進行分組,將不同數(shù)據(jù)源的同一篇文獻分到一個文獻組內(nèi)。例如,檢索廣州呼吸疾病研究所的鐘南山于2005-2015年發(fā)表在《中華醫(yī)學雜志》上的關于“慢性阻塞性肺疾病”論文收錄及被引情況。從圖3可以看出,多個數(shù)據(jù)源檢索的檢索結(jié)果被分成了多個組,每個組代表1篇文獻。

        圖3收錄檢索條件與結(jié)果頁面

        第二步是選擇結(jié)果文獻進行查引。勾選圖3中“文獻分組:文獻2”,選擇題名為 “簡易太極拳鍛煉對慢性阻塞性肺疾病患者運動耐力和生活質(zhì)量的影響”分組中的3篇文獻,點擊“開始查引”則該篇文獻的被引情況會按“題名+第一作者+刊名+年份”去重排序后顯示(圖4)。

        圖4引文檢索結(jié)果頁面

        經(jīng)檢索服務總線自動整合去重后,還有部分引文因存在錄入環(huán)節(jié)的格式錯誤需要人工干預對引文列表進行審查去重,最后形成圖 5所示的引證報告,用戶可直接輸出或下載。

        圖5 引證報告

        3 系統(tǒng)的主要關鍵技術

        3.1 頁面分析方法

        跨庫檢索是以多個分布式異構數(shù)據(jù)源為對象的檢索系統(tǒng)[8]。系統(tǒng)提供統(tǒng)一的檢索界面,用戶輸入檢索條件后,系統(tǒng)將用戶的檢索條件轉(zhuǎn)化為不同分布式異構數(shù)據(jù)源的檢索表達式,并發(fā)檢索多個分布式異構數(shù)據(jù)源。由于未獲得后端數(shù)據(jù)源廠商可公開訪問的API接口,跨庫檢索系統(tǒng)只能通過頁面分析方法對多個后端數(shù)據(jù)源進行集成檢索。頁面分析方法通過打開網(wǎng)絡流量分析工具,抓取http請求與響應數(shù)據(jù)進行分析比對,找到參數(shù)部分,然后將新參數(shù)封裝進http請求并發(fā)送,接收到http響應后對html頁面進行分析并提取元數(shù)據(jù)。該方法雖適用于所有的Web系統(tǒng)的集成,但當后端數(shù)據(jù)源頁面發(fā)生變化時應及時調(diào)整。

        通過firefox插件的firebug進行網(wǎng)絡流量分析。首先用firefox瀏覽萬方專業(yè)檢索頁面,啟用firebug進行網(wǎng)絡流量監(jiān)測抓取,輸入檢索表達式如“題名:(慢性阻塞性肺疾病) * 創(chuàng)作者:(鐘南山) * 作者單位:(廣州呼吸疾病研究所) * 期刊-刊名:(中華醫(yī)學雜志)”,點擊“檢索”,通過firebug中的網(wǎng)絡面板,對http請求與響應進行分析?;诰W(wǎng)絡流量分析,檢索條件對應的萬方系統(tǒng)http請求詳見表1。

        表1 對應的萬方系統(tǒng)http請求

        從萬方頁面源代碼可看出,編碼使用的是UTF-8,因此中文字符還需轉(zhuǎn)換為UTF-8格式。然后發(fā)出http請求并得到http響應。接收到http響應后通過html頁面查看源代碼,查看包含的檢索結(jié)果文獻,也可利用firebug直接找到結(jié)果文獻部分。然后利用XPATH和正則表達式匹配進行頁面數(shù)據(jù)分析,找到有效信息,部分提取出檢索結(jié)果文獻的元數(shù)據(jù)包括題名、作者、刊名、年份、卷期、文獻類型、被引次數(shù)、URL地址。引文檢索可直接通過URL地址訪問結(jié)果文獻,通過頁面分析提取引證文獻元數(shù)據(jù)。3.2 相似文獻檢測

        相似重復記錄的檢測與消除是跨庫檢索的重要功能,也是多數(shù)據(jù)源合并研究的熱點[9]。多數(shù)據(jù)源采集的文獻數(shù)據(jù)需要結(jié)合精確匹配和模糊匹配方法,由系統(tǒng)有效檢測重復文獻,自動將相似度高的文獻歸類到一個文獻組,不同的文獻歸類到不同的文獻組。相似文獻檢測算法偽代碼如下:

        其中,compare ()函數(shù)用于比較兩篇文獻的相似性,相似文獻被歸于同一組。用于比較的文獻元數(shù)據(jù)從數(shù)據(jù)源的http響應中提取,包括題名、作者、刊名、年份。文獻分組與去重時,可用“年份+第一作者+刊名”進行精確匹配。文獻題名通常包含中文字符、英文字符、上下標、分隔符(空格、下劃線、中劃線)、特殊字符(拉丁字母等)、標點符號等,在錄入時容易受全角半角、錄入錯誤等影響,應先進行格式轉(zhuǎn)換預處理后采用模糊匹配,即采用Levenshtein算法計算兩個題名字符串之間的編輯距離。

        4 結(jié)語

        引證報告是重要的檢索評價工具。通過引證報告可了解文獻的被引用情況,為科研人員客觀了解自身的學術影響力,提供公正、合理、科學、客觀的評價依據(jù),在科研管理和科學評價方面有重要的作用。解放軍醫(yī)學圖書館在原有C/S系統(tǒng)基礎上[10]開發(fā)的基于Web的中文期刊查收查引跨庫檢索系統(tǒng),使用戶不再需要安裝客戶端軟件,提高了軟件適應性。根據(jù)后端數(shù)據(jù)源的變化調(diào)整了頁面抓取過程。模糊匹配采用編輯距離計算相似度進行相似性文獻檢測分組與去重,輸出格式統(tǒng)一規(guī)范的引證報告。

        系統(tǒng)通過跨庫檢索屏蔽異構數(shù)據(jù)源的差異,使用戶能通過統(tǒng)一的客戶端Web頁面同時檢索多個異構數(shù)據(jù)源,通過頁面分析方法轉(zhuǎn)換檢索表達式并發(fā)檢索后端多數(shù)據(jù)源,通過頁面元數(shù)據(jù)提取和相似文獻檢測對文獻進行分組和去重排序,自動生成統(tǒng)一格式的引證報告,簡化了查新查引工作人員的工作,減少了人工錯誤和重復性勞動,提高了工作效率。目前該系統(tǒng)已經(jīng)在醫(yī)院、圖書館、研究所等多家機構推廣使用。從用戶使用效果和查收查引的發(fā)展來看,系統(tǒng)還有需要完善的地方,主要體現(xiàn)在只集成檢索了中文引文數(shù)據(jù)源,未將SCI、EI、ISTP等外文數(shù)據(jù)源集成進來,缺少區(qū)分自引他引的功能。

        猜你喜歡
        檢索系統(tǒng)數(shù)據(jù)源異構
        試論同課異構之“同”與“異”
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年1期)2018-09-03 07:53:04
        收錄《信號處理》的檢索系統(tǒng)及數(shù)據(jù)庫
        信號處理(2018年5期)2018-06-28 02:16:02
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年4期)2018-06-27 03:34:16
        本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫收錄
        信號處理(2018年3期)2018-06-27 03:30:18
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
        overlay SDN實現(xiàn)異構兼容的關鍵技術
        電信科學(2016年11期)2016-11-23 05:07:56
        LTE異構網(wǎng)技術與組網(wǎng)研究
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        亚洲色欲色欲www| 少妇高潮久久蜜柚av| 一 级做人爱全视频在线看| 无码午夜成人1000部免费视频| 免费一级毛片麻豆精品| 免费人成黄页网站在线观看国产| 白白色发布的在线视频| 国产精品视频免费播放| 麻豆国产高清精品国在线| 久久午夜伦鲁鲁片免费| 国产精品国三级国产a| 亚洲欧美日韩在线不卡| 免费人成黄页网站在线观看国产| 91久久精品一区二区喷水喷白浆| 亚洲综合一区中文字幕| 国产98在线 | 日韩| 亚洲AV无码秘 蜜桃1区| 在线高清亚洲精品二区| 免费在线黄色电影| 亚洲国产成人va在线观看天堂| 天堂Av无码Av一区二区三区| 国产三区二区一区久久| av无码av天天av天天爽| 欧洲亚洲综合| 国产精品很黄很色很爽的网站| 精品天堂色吊丝一区二区| 白又丰满大屁股bbbbb| 99久久精品一区二区三区蜜臀| 综合久久精品亚洲天堂| 中文字幕乱码无码人妻系列蜜桃| 久久精品国产精品青草色艺| av网址不卡免费在线观看| 国产精品一区二区三区自拍| 国产99久久精品一区二区| 国产成社区在线视频观看| 北条麻妃在线中文字幕| 亚洲欧美精品suv| 国产乱色国产精品免费视频| 日本女优免费一区二区三区| 国产熟妇与子伦hd| 久久ri精品高清一区二区三区|