亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于科技檔案的學(xué)術(shù)專題情報快速輔助生成系統(tǒng)設(shè)計(jì)研究

        2018-01-31 05:31:47
        天津科技 2018年1期
        關(guān)鍵詞:科技情報情報學(xué)情報

        陳 默

        (機(jī)械工業(yè)信息研究院 北京100037)

        1 論文的研究背景和意義

        科技檔案是指在自然科學(xué)研究、生產(chǎn)技術(shù)、基本建設(shè)等活動中形成的應(yīng)當(dāng)歸檔保存的圖紙、圖表、文字材料、計(jì)算材料、照片、影片、錄像、錄音帶等科技文件材料。隨著信息網(wǎng)絡(luò)技術(shù)的發(fā)展,云科技、大數(shù)據(jù)時代的到來,數(shù)據(jù)信息呈現(xiàn)出爆炸式增長。在這種情況下,再采用人工手段來檢索情報信息已經(jīng)成為不可能完成的任務(wù)。

        本文基于數(shù)字檔案平臺、科技報告系統(tǒng)等數(shù)據(jù)庫設(shè)計(jì)建立一套以人為主,數(shù)據(jù)、信息、知識和智慧綜合集成,高度智能化的人機(jī)結(jié)合智慧情報系統(tǒng)。從系統(tǒng)的物理構(gòu)成來看,包括3部分(見圖1)。

        文章將主要運(yùn)用信息智能檢索、數(shù)據(jù)統(tǒng)一結(jié)構(gòu)化、信息抽取、機(jī)器學(xué)習(xí)、自然語言理解等前沿?cái)?shù)據(jù)挖掘分析技術(shù),對各數(shù)據(jù)庫的結(jié)構(gòu)化與非結(jié)構(gòu)化文本進(jìn)行處理,實(shí)現(xiàn)對海量信息的數(shù)據(jù)挖掘,完成數(shù)據(jù)的關(guān)鍵詞輸入、引文爬取、數(shù)據(jù)解析分析、統(tǒng)計(jì),最終形成關(guān)于學(xué)術(shù)專題情報報告的雛形。

        圖1 基于綜合集成研討廳的人機(jī)結(jié)合智慧情報系統(tǒng)框架示意圖Fig.1 Schematic of human-machine integration smart intelligence system framework based on HWME

        2 功能需求分析與系統(tǒng)設(shè)計(jì)

        2.1 系統(tǒng)需求分析

        本系統(tǒng)需要在普通搜索引擎的基礎(chǔ)上通過重點(diǎn)、互動、專業(yè)垂直搜索,完成深入的、交互式的、專業(yè)的科技情報搜索。本部分的科技情報專用搜索工具是由元搜索系統(tǒng)、重點(diǎn)搜索系統(tǒng)、互動搜索系統(tǒng)、垂直搜索系統(tǒng)和深網(wǎng)接口系統(tǒng)封裝在一起構(gòu)成。本系統(tǒng)根據(jù)研究內(nèi)容設(shè)定采集數(shù)據(jù)的范圍,力爭把數(shù)以十萬計(jì)的海量信息壓縮到600條以內(nèi),同時保存足夠的核心信息,并采用人機(jī)結(jié)合的工作方式,提供專家判讀的界面,為數(shù)據(jù)篩選的準(zhǔn)確性提供保障。

        2.2 系統(tǒng)模塊設(shè)計(jì)

        本系統(tǒng)根據(jù)關(guān)鍵詞并行進(jìn)行科技報告系統(tǒng)網(wǎng)頁爬取與數(shù)字檔案館中的科技檔案爬取,獲取有效的網(wǎng)頁信息與檔案信息,去重、去噪后得到需要的網(wǎng)頁信息與檔案信息。具體流程如圖2所示。

        按照檔案情報流程節(jié)點(diǎn)的不同,該學(xué)術(shù)專題情報快速輔助生成系統(tǒng)可以細(xì)分為幾個大模塊:搜索大模塊、控制大模塊、整理大模塊、分析大模塊及結(jié)論生成大模塊。大模塊下又可細(xì)分為幾個小模塊。學(xué)術(shù)專題情報快速輔助生成系統(tǒng)模塊劃分如圖3所示。

        圖2 系統(tǒng)數(shù)據(jù)流程圖Fig.2 Flowchart of system data

        圖3 系統(tǒng)功能模塊圖Fig.3 System functional modules

        2.3 系統(tǒng)架構(gòu)設(shè)計(jì)

        系統(tǒng)結(jié)構(gòu)共包括元搜索、多線程控制器、垂直搜索、數(shù)據(jù)存儲器、URL調(diào)度器、源碼解析器和數(shù)據(jù)分析等七大模塊。由于網(wǎng)頁數(shù)據(jù)與檔案庫的格式差異較大,故本系統(tǒng)開發(fā)兩個軟件分別對網(wǎng)頁數(shù)據(jù)和檔案數(shù)據(jù)進(jìn)行處理。從系統(tǒng)結(jié)構(gòu)上說,除了信息采集模塊外,兩個軟件的結(jié)構(gòu)基本一致,都是通過上述模塊進(jìn)行相互協(xié)調(diào)控制(見圖4)。

        圖4 系統(tǒng)整體結(jié)構(gòu)圖Fig.4 Overall system structure

        系統(tǒng)的基本流程:在傳統(tǒng)網(wǎng)絡(luò)爬蟲的基礎(chǔ)上進(jìn)行改進(jìn),抽取各類網(wǎng)頁信息,將抽取下來的各類信息存儲于內(nèi)存之中,每次抽取與前一次鏈接相同,每當(dāng)存儲的信息超過設(shè)定的閾值,信息存入本地文件。

        抓取下的數(shù)據(jù)被分為互聯(lián)網(wǎng)數(shù)據(jù)與檔案庫數(shù)據(jù),檔案庫數(shù)據(jù)一般為標(biāo)準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)(雙層 PDF等除外),重復(fù)率低,可直接使用系統(tǒng)對數(shù)據(jù)進(jìn)行分析。

        3 系統(tǒng)的功能實(shí)現(xiàn)

        以人工智能領(lǐng)域?yàn)槔?,使用本系統(tǒng)進(jìn)行實(shí)驗(yàn),驗(yàn)證本系統(tǒng)的可行性和有效性。

        ①可以實(shí)現(xiàn)對檔案數(shù)據(jù)庫、科技報告數(shù)據(jù)庫的中文數(shù)據(jù)采集搜索,可以自動實(shí)現(xiàn)對檔案、科技報告相關(guān)詞庫的搜索,對相關(guān)文獻(xiàn)詳細(xì)信息(包標(biāo)題、摘要、完成人、完成單位、完成時間、項(xiàng)目名稱等)進(jìn)行搜索采集,對相關(guān)文獻(xiàn)內(nèi)高頻詞匯進(jìn)行統(tǒng)計(jì)分析。系統(tǒng)檢索過程見圖5~7。

        圖5 搜索工具Fig.5 Search tool

        圖6 詞庫內(nèi)數(shù)據(jù)Fig.6 Data within the lexicon

        圖7 詳細(xì)信息內(nèi)數(shù)據(jù)Fig.7 Data within the detailed information

        ②系統(tǒng)對采集到的數(shù)據(jù)進(jìn)行歸類、去噪、去重處理,篩選出較具情報價值的信息,運(yùn)用文獻(xiàn)計(jì)量學(xué)方法對篩選完的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,形成清晰的檔案文獻(xiàn)相關(guān)信息統(tǒng)計(jì)分析表格。

        ③系統(tǒng)可以用來搜索某學(xué)術(shù)領(lǐng)域相關(guān)機(jī)構(gòu)、相關(guān)專家,還可以對機(jī)構(gòu)之間的合作關(guān)系、專家之間的合作關(guān)系、專家學(xué)術(shù)研究點(diǎn)之間的關(guān)系進(jìn)行可視化展示。

        科技情報是情報學(xué)的主要學(xué)科,檔案信息、科技報告是情報采集的重要來源,基于科技檔案的學(xué)術(shù)專題情報快速輔助生成系統(tǒng)可以有效提高情報機(jī)構(gòu)數(shù)據(jù)資源建設(shè)能力,對于打造情報機(jī)構(gòu)核心競爭力具有重要促進(jìn)作用。

        [1] 鄭彥寧,宋振峰. 我國科技情報行業(yè)現(xiàn)狀與發(fā)展對策分析[J]. 情報學(xué)報,2007,26(5):10-15.

        [2] 賀德方. 我國科技情報行業(yè)發(fā)展方向的探討[J]. 情報學(xué)報,2007,26(4):23-29.

        [3] 賀德方. 我國科技情報行業(yè)發(fā)展戰(zhàn)略與發(fā)展路徑的思考[J]. 情報學(xué)報,2007,26(4):54-61.

        [4] 成帥. 文獻(xiàn)增長規(guī)律的研究[J]. 科技情報開發(fā)與經(jīng)濟(jì),2005,15(22):13-20.

        猜你喜歡
        科技情報情報學(xué)情報
        開放與融合:公安情報學(xué)進(jìn)入情報學(xué)方式研究*
        情報雜志(2022年10期)2022-10-20 03:25:42
        情報
        情報
        情報
        基于數(shù)據(jù)工程的國防科技情報生態(tài)體系構(gòu)建
        構(gòu)建中國特色的情報學(xué)
        銅陵市科技情報工作存在的問題與發(fā)展對策
        安徽科技(2018年9期)2018-12-31 12:54:31
        加強(qiáng)科技情報檔案管理工作的建議
        交接情報
        基于創(chuàng)新環(huán)境下的科技情報研究
        精品人妻av区乱码色片| 亚洲自拍另类欧美综合| 国产成人久久精品亚洲小说| 加勒比特在线视频播放| 国产免费一区二区三区精品视频| 四虎影视成人永久免费观看视频| 亚洲av成人精品日韩一区| 国产精品久久久久久久y| 能看不卡视频网站在线| 亚洲av成人一区二区三区本码| 久久久久人妻精品一区蜜桃| 正在播放国产多p交换视频| 按摩师玩弄少妇到高潮hd| 亚洲国产成人久久精品不卡| 国产精品爽爽v在线观看无码| 国产精品半夜| 久久亚洲一级av一片| 日本一区二区在线高清| 狠狠躁夜夜躁人人爽天天古典| 欧美人与动人物牲交免费观看| 国产一区二区三区视频免费在线| 青青草手机在线观看视频在线观看 | 一区二区丝袜美腿视频| 国产精品亚洲一区二区三区16| 黑人巨大精品欧美一区二区免费 | 国产精品亚洲A∨天堂不卡| 韩国女主播一区二区三区在线观看| 国产自拍精品一区在线观看| 久久综合精品国产二区无码 | 天美传媒精品1区2区3区| 日本高清在线播放一区二区三区| 在线观看的a站免费完整版| 97成人精品在线视频| 在线中文字幕乱码英文字幕正常| 使劲快高潮了国语对白在线| 国产一精品一aⅴ一免费| 美女免费观看一区二区三区| 亚洲av永久中文无码精品综合| 亚洲成av人最新无码| 视频一区二区不中文字幕| 亚洲欧美中文日韩在线v日本|