亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科研信息采集整合系統(tǒng)研究

        2013-12-27 01:06:02王冬艷敦冬梅羊紅光
        河北省科學(xué)院學(xué)報 2013年4期
        關(guān)鍵詞:石家莊網(wǎng)頁文檔

        王冬艷,成 彬,敦冬梅,羊紅光

        (1.河北省科學(xué)院應(yīng)用數(shù)學(xué)研究所,河北石家莊 050081;2.河北省信息安全認(rèn)證工程技術(shù)研究中心,河北石家莊 050081;3.河北華燁冀科信息技術(shù)有限責(zé)任公司,河北石家莊 050081;4.石家莊職業(yè)技術(shù)學(xué)院,河北石家莊 050081)

        科研信息采集整合系統(tǒng)研究

        王冬艷1,3,成 彬1,2,敦冬梅4,羊紅光1,2

        (1.河北省科學(xué)院應(yīng)用數(shù)學(xué)研究所,河北石家莊 050081;2.河北省信息安全認(rèn)證工程技術(shù)研究中心,河北石家莊 050081;3.河北華燁冀科信息技術(shù)有限責(zé)任公司,河北石家莊 050081;4.石家莊職業(yè)技術(shù)學(xué)院,河北石家莊 050081)

        科研信息服務(wù)需要專業(yè)的信息檢索與信息整合??蒲行畔⒉杉舷到y(tǒng)利用Nutch實現(xiàn)數(shù)據(jù)的采集與索引,針對公網(wǎng)網(wǎng)頁和專業(yè)數(shù)據(jù)庫的類型采用不同相關(guān)度計算方法,實現(xiàn)了科研信息的有效整合。

        科研信息;采集;整合;數(shù)據(jù)關(guān)聯(lián)

        互聯(lián)網(wǎng)時代采集科研信息的渠道有很多,比如專業(yè)學(xué)術(shù)數(shù)據(jù)庫、專利數(shù)據(jù)庫、電子圖書、網(wǎng)絡(luò)博客、學(xué)術(shù)論壇等,這些數(shù)據(jù)依靠人工已不能完成采集、定制、分析、整合。實現(xiàn)科研信息服務(wù)定制需要用戶與專門的信息環(huán)境共同完成,一方面要根據(jù)科研用戶構(gòu)建該學(xué)科領(lǐng)域在學(xué)科資源體系下的資源與服務(wù)框架,一方面要構(gòu)建專門用于科研信息服務(wù)的搜索工具及數(shù)據(jù)整合系統(tǒng)[1]。

        科研信息定制環(huán)境下的信息檢索不能是單純的信息檢索,而是以發(fā)現(xiàn)文獻信息之間的關(guān)系更快、更全面、可定制的檢索服務(wù)[2]。

        基于Nutch面向科研信息服務(wù)進行定制開發(fā)的信息系統(tǒng),開展科研信息的定向采集、識別與提取、分析與整合等信息加工,可實現(xiàn)科研信息的準(zhǔn)確細(xì)致分類與存儲。

        1 科研信息服務(wù)的服務(wù)需求

        科研用戶在科研項目立項、前沿課題追蹤、項目研發(fā)等科研活動中,必須對特定的科研方向有一個準(zhǔn)確及時的了解??蒲行畔⒌牟杉饕◣讉€方面:一是文摘數(shù)據(jù)庫、全文數(shù)據(jù)庫、電子圖書等這些正式出版物;二是重要學(xué)術(shù)機構(gòu)、國內(nèi)外學(xué)術(shù)會議、專家的學(xué)術(shù)報告等學(xué)術(shù)信息;三是網(wǎng)絡(luò)中的技術(shù)博客、學(xué)術(shù)交流論壇、百度百科等學(xué)術(shù)信息。總的來說,這些信息一些是公眾網(wǎng)絡(luò)的網(wǎng)頁,一些是專業(yè)數(shù)據(jù)庫。

        科研用戶根據(jù)自身科研信息需求往往需要跟蹤某一領(lǐng)域的研究進展,常常在互聯(lián)網(wǎng)及專業(yè)數(shù)據(jù)庫中搜索一些固定的主題關(guān)鍵詞來獲取想要的內(nèi)容,然而搜索出來的內(nèi)容中有很多是不相關(guān)的。從網(wǎng)絡(luò)采集的科研信息往往是異構(gòu)數(shù)據(jù),這些數(shù)據(jù)應(yīng)先進行過濾清洗處理,然后再由服務(wù)器端向客戶端進行映射與集成??蒲行畔⒎?wù)需要有廣泛的信息采集、快速的數(shù)據(jù)索引、有效的數(shù)據(jù)整合等功能[3]。

        科研用戶需求的科研信息資源不是廣泛的采集集合。而是具有高度相關(guān)性的信息集合,因此需要對采集來的信息按照合適的算法進行關(guān)聯(lián)性計算,清洗過濾掉與主題相關(guān)度不高的數(shù)據(jù),再將處理過的數(shù)據(jù)進行分類存儲,為用戶建立可定制的信息索引庫。

        因此科研工作者需要一個能根據(jù)自身需要定制檢索主題,自動加入檢索入口并生成關(guān)鍵詞,主動進行信息采集與加工,智能過濾冗余的信息噪音,整合和細(xì)分用戶需要的信息資源,從而獲得一個與主題相關(guān)度高、有一定主題內(nèi)容分類的信息整合系統(tǒng)。

        2 Nutch搜索引擎

        Nutch完全構(gòu)建在Hadoop分布式計算平臺上,可實現(xiàn)多節(jié)點抓取和索引,具有網(wǎng)址解析、網(wǎng)頁去重、網(wǎng)頁排序等功能。Nutch搜索引擎是一個開放源代碼的搜索引擎。

        2.1 Nutch的主要組件

        Nutch擁有抓取器和搜索器兩個重要的組件(圖1)。在抓取操作中,抓取器既可以從互聯(lián)網(wǎng)上抓取網(wǎng)頁,也可以從內(nèi)部局域網(wǎng)上抓取數(shù)據(jù),抓取的方式是以廣度優(yōu)先搜索的;抓取的數(shù)據(jù)被存儲到CrawlDB和Link DB數(shù)據(jù)庫中,再由內(nèi)置的解析器解析這些文檔。最后存儲解析結(jié)果到index DB和SegmentsDB數(shù)據(jù)庫,以供搜索器搜索使用[4]。

        在搜索操作中,可通過網(wǎng)頁上的輸入框輸入相應(yīng)關(guān)鍵詞,之后調(diào)用Nutch搜索接口(Nutch Query Interface)。Nutch索引器在index DB上展開搜索,這個過程是調(diào)用Lucene引擎來完成的。接下來搜索接口收集從索引器返回的URL、標(biāo)題、錨和從SegmentsDB返回的內(nèi)容。排序完成后,搜索接口返回搜索結(jié)果。

        Nutch構(gòu)建在Hadoop分布式文件系統(tǒng)之上具有集群擴展能力,并可以由map/reduce實現(xiàn)對CrawlDB,Link DB,SegmentsDB和Index DB等數(shù)據(jù)庫的操作。

        圖1 Nutch搜索引擎架構(gòu)

        2.2 Nutch的工作流程

        整個系統(tǒng)的工作流程可以分解為以下6個步驟[5-6]:

        (1)原始種子站點建立。根據(jù)科研用戶提供的站點和主要的學(xué)術(shù)數(shù)據(jù)庫作為原始種子站點,這種方式獲得的站點更加可靠、準(zhǔn)確。

        (2)抓取任務(wù)創(chuàng)建和分解。依照系統(tǒng)資源配置和抓取任務(wù)實現(xiàn)種子站點的合理分組,采用多次迭代定量抓取的方法,以保證抓取任務(wù)的快速、平穩(wěn)進行。

        (3)子任務(wù)抓取。依據(jù)爬蟲迭代深度、限制每次迭代中前N條記錄、Fetcher線程數(shù)、爬取記錄的保存目錄,完成完整的爬取過程。根據(jù)預(yù)先設(shè)定的抓取深度、線程數(shù)、結(jié)果存放路徑,將抓取任務(wù)分解成多個子任務(wù)后依次抓取。

        (4)數(shù)據(jù)過濾與去重。在合并多個子任務(wù)獲取的數(shù)據(jù)成一個數(shù)據(jù)文件前,可選擇性地過濾指定內(nèi)容。通過運行URLFilter過濾數(shù)據(jù)庫中的URL,以濾去不需要的URL,所有版本的元數(shù)據(jù)被聚合起來,新的值代替先前的值。同樣通過調(diào)用Nutch命令實現(xiàn)數(shù)據(jù)去重。

        (5)抓取數(shù)據(jù)合并。每一個子任務(wù)完成后都生成一個索引目錄,調(diào)用Nutch命令合并后的索引存儲目錄。

        (6)獲取新的種子站點。在抓取過程中統(tǒng)計不在原始站點中的出現(xiàn)較多的站點,將他們作為新站點開展新抓取,并重復(fù)以上數(shù)據(jù)操作。

        3 科研信息采集整合系統(tǒng)

        3.1 科研信息采集整合系統(tǒng)框架

        對于科研信息采集整合系統(tǒng)來說,重要的對數(shù)據(jù)的整合過程。在數(shù)據(jù)整合中,應(yīng)研究數(shù)據(jù)間的關(guān)聯(lián)性方法及實現(xiàn)機制[7-10]。采集整合系統(tǒng)框架見圖2。

        對數(shù)據(jù)進行相關(guān)性分析,需要在關(guān)聯(lián)數(shù)據(jù)集合中通過有效的挖掘關(guān)聯(lián)數(shù)據(jù)來處理復(fù)雜的知識關(guān)聯(lián),從公共網(wǎng)絡(luò)和專業(yè)數(shù)據(jù)庫中抓取相關(guān)的數(shù)據(jù),在通過執(zhí)行各類相關(guān)數(shù)據(jù)的交互實現(xiàn)預(yù)定科研信息的篩選、分類以及知識發(fā)現(xiàn)。

        數(shù)據(jù)關(guān)聯(lián)中的查詢包括數(shù)據(jù)采集、預(yù)處理、合并、結(jié)果存儲等幾個步驟。查詢方式可以是中心化也可以是分布式,對于科研信息采集整合系統(tǒng)來說前者將在數(shù)據(jù)聚合、索引計算開銷、數(shù)據(jù)存儲速度等方面無法達到要求,而采取后者能有效解決這些問題。

        圖2 科研信息采集整合系統(tǒng)框架

        關(guān)聯(lián)數(shù)據(jù)整合模塊負(fù)責(zé)數(shù)據(jù)的合并、清洗和評估,可將各類相關(guān)數(shù)據(jù)合并到一起,并進行分類。

        整合數(shù)據(jù)存儲模塊負(fù)責(zé)對整合后的數(shù)據(jù)進行存儲,并建立臨時緩存和永久存儲兩種模式,能提供標(biāo)準(zhǔn)的數(shù)據(jù)訪問和調(diào)用接口。

        模式整合模塊負(fù)責(zé)構(gòu)建通用和專用詞匯之間的映射,解析數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。

        查詢管理模塊負(fù)責(zé)將異構(gòu)數(shù)據(jù)轉(zhuǎn)化為符合關(guān)聯(lián)數(shù)據(jù)查詢的形式。

        數(shù)據(jù)查詢與獲取模塊利用Nutch技術(shù)獎網(wǎng)絡(luò)數(shù)據(jù)和專用額數(shù)據(jù)庫數(shù)據(jù)進行采集和索引,為數(shù)據(jù)分析查詢提供數(shù)據(jù)來源。

        分布式處理模塊利用云計算技術(shù)保障高效的數(shù)據(jù)查詢。

        3.2 網(wǎng)頁主題相關(guān)項的近似度

        根據(jù)主題關(guān)鍵詞利用網(wǎng)頁特征項和主題相關(guān)項統(tǒng)計來計算網(wǎng)頁的相關(guān)度,實現(xiàn)網(wǎng)頁內(nèi)容的篩選、排序和清洗。

        用網(wǎng)頁特征項來描述主題關(guān)鍵詞,用統(tǒng)計特征項進行關(guān)鍵詞匹配、搜索結(jié)果排序。設(shè)計的特征項計算公式如下:

        其中A是主題相關(guān)項集合,Ra是關(guān)聯(lián)關(guān)系集合,τai是主題相關(guān)項a i的權(quán)重,num ai是主題相關(guān)項ai的出現(xiàn)數(shù)量,d[ai,aj]是主題相關(guān)項ai和a j的關(guān)聯(lián)度,const是調(diào)整參數(shù)。

        3.3 文獻資源的數(shù)據(jù)相關(guān)度

        文獻資源主要由各類文檔構(gòu)成,通過計算文檔相關(guān)度來實現(xiàn)主題相關(guān)項的篩選、排序和清洗。文檔的相關(guān)度就是文檔和主題的相關(guān)度,因為這個值是為了度量文檔和主題相關(guān)的程度,也稱作文檔的主題相關(guān)性。計算文檔的相關(guān)度只要求兩個向量的距離即可。

        利用向量空間模型的排序策略分析,構(gòu)建主題關(guān)鍵詞二元組向量KW,KW={<kw1,role1>,<kw2,role2>,……,<kw N,roleN>},通過對一些主題網(wǎng)站和專業(yè)文獻數(shù)據(jù)庫的分析,得到的主題關(guān)鍵詞向量。

        主題關(guān)鍵詞向量和文檔關(guān)鍵詞向量分別用t和d表示,文檔的主題相關(guān)性用space(dt)示。計算文檔相關(guān)度的過程中要求向量t和d的元素個數(shù)要一樣。

        在向量t和d中取出關(guān)鍵詞作為新向量dt。將改變后的t記作二元組tt,其關(guān)鍵詞為dt中的關(guān)鍵詞,role為t中的role,當(dāng)tt中與t中的關(guān)鍵詞不一致時role為0。將改變后的d記作二元組dd,其關(guān)鍵詞為dt中的關(guān)鍵詞,role為d中的role,當(dāng)tt中與d中的關(guān)鍵詞不一致時role為0。這樣計算t和d的距離只要計算tt和dd的距離。

        計算tt和d d的距離的公式為:

        4 結(jié)語

        科研信息采集整合系統(tǒng)是科研工作的一個有力工具,本系統(tǒng)利用Nutch技術(shù)可以輕松實現(xiàn)網(wǎng)頁、數(shù)據(jù)庫內(nèi)容的采集和索引。該系統(tǒng)的難點在于數(shù)據(jù)的清洗與整合,對于不同類型的科研信息數(shù)據(jù),采用不同的科研信息數(shù)據(jù)關(guān)聯(lián)計算方法,實現(xiàn)了科研信息數(shù)據(jù)的有效整合,便于查詢與應(yīng)用。

        [1]王巍.高校圖書館個性化科研信息服務(wù)探究[J].江西圖書館學(xué)刊,2013,2:67-69.

        [2]白光祖,呂俊生,吳新年.科研個性化信息環(huán)境初探[J].情報科學(xué),2009,27(4):502-506.

        [3]梁田.個性化科研主題信息環(huán)境構(gòu)建技術(shù)方案實踐[J].圖書情報工作,2012,R(2):103-105.

        [4]陳相如.針對結(jié)構(gòu)化商品數(shù)據(jù)的多樣性搜索系統(tǒng)的設(shè)計與實現(xiàn)[D].上海:上海交通大學(xué),2013.

        [5]王春華.基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D].楊凌:西北農(nóng)林科技大學(xué),2010.

        [6]陸小麗,何加銘.基于Map/Reduce的索引數(shù)據(jù)云存儲模型研究[J].寧波大學(xué)學(xué)報(理工版),2011,24(3):29-33.

        [7]李楠.基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究[D].北京:中國農(nóng)業(yè)科學(xué)院,2012.

        [8]T Baker,J keizer.Linked Data for Fighting Global Hunger:Experiences in setting standards for Agricultural Information Management[J].Linking Enterprise Data,2010,2:177-201.

        [9]C Bizer.The Emerging Web of Linked Data[J].Intelligent Systems,2009,24(5):87-92.

        [10]H Chowdry,C Crawford,L Dearden,et al.Widening participation in higher education:analysis using linked administrative data[J].Journal of the Royal Statistical Society:Series A,2013,176(2):431-457.

        Research on science research Information collection and Integration system

        WANG Dong-yan1,3,CHENG Bin1,2,DUN Dong-mei4,YANG Hong-guang1,3

        (1.InstituteofAppliedMathematics,HebeiAcademyofSciences,ShijiazhuangHebei050081,China;2.HebeiAuthenticationTechnologyEngineeringResearchCenter,ShijiazhuangHebei050081,China;3.HebeiHuayejikeinformationTechnologyCo.LTD,ShijiazhuangHebei050081,China;4.ShijiazhuangVacationalTechnicalInstitute,ShijiazhuangHebei050081,China)

        Science research information services require more excellent Information Retrieval and information integration.With the nutch technology,Information Collection and index can be achieve in Science Research Information Collection and Integration system.The implementation of science research information Integration by different relativity calculation methods for web pages and specialized databases.

        Research on Science;Research Information;Collection;Integration data association

        TP317.1

        :A

        1001-9383(2013)04-0022-05

        2013-08-25

        王冬艷(1977-),女,河北贊皇人,工程師,主要從事計算機技術(shù)應(yīng)用研究.

        猜你喜歡
        石家莊網(wǎng)頁文檔
        石家莊曉進機械制造科技有限公司
        肉類研究(2022年7期)2022-08-05 04:47:20
        有人一聲不吭向你扔了個文檔
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        基于RI碼計算的Word復(fù)制文檔鑒別
        人民幣緣何誕生在石家莊
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        10個必知的網(wǎng)頁設(shè)計術(shù)語
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        亚洲二区精品婷婷久久精品| 在线观看av永久免费| 久久久亚洲欧洲日产国产成人无码 | 少妇隔壁人妻中文字幕| 国产最新女主播福利在线观看| 亚洲欧美精品suv| 波多野结衣一区| 亚洲视频综合在线第一页| 中文有码人妻字幕在线| 国产亚洲一本大道中文在线| 日韩黑人欧美在线视频观看| av亚洲在线一区二区| 精品一区二区三区蜜桃麻豆| 久久久亚洲欧洲日产国码αv| 国产欧美日韩专区| 91久久精品一区二区喷水喷白浆| 久久精品人搡人妻人少妇| 痉挛高潮喷水av无码免费| 无码电影在线观看一区二区三区| 成人在线视频亚洲国产| 午夜久久久久久禁播电影 | 欧美日韩成人在线| 国产精品视频免费一区二区三区| 公厕偷拍一区二区三区四区五区| 国产av综合影院| 国产欧美另类精品久久久| 91精品国产综合久久国产| 国产69久久精品成人看| 亚洲国产精品久久久久秋霞1| 欧美国产伦久久久久久久| 黄色一区二区三区大全观看| 中文字幕人妻无码一夲道| 国产一区二区精品尤物| 91九色精品日韩内射无| 久久久国产精品va麻豆| 丁香五月缴情综合网| 国产一区二区三区四区色| 亚洲国产精品不卡av在线| 精品日韩欧美一区二区在线播放| 成人精品国产亚洲欧洲| 日本一区二区免费高清|