亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        學術專題檔案情報快速輔助生成系統(tǒng)模塊的設計與實現(xiàn)

        2017-07-24 22:35:08張魯冀
        檔案天地 2017年7期
        關鍵詞:情報網(wǎng)頁數(shù)據(jù)庫

        張魯冀

        一、論文的研究背景和意義

        科技檔案是指在自然科學研究、生產(chǎn)技術、基本建設等活動中形成的應當歸檔保存的圖紙、圖表、文字材料、計算材料、照片、影片、錄像、錄音帶等科技文件材料。2010年以前,由于信息傳播速度、信息量以及計算機技術的普及都落后于今天,全國各地的科技情報研究所都是使用人工的手段從科技檔案中收集情報,然后再對數(shù)據(jù)進行篩選、去重、統(tǒng)計,這種方法既費時又費力。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)字檔案平臺、科技報告系統(tǒng)的興起以及大數(shù)據(jù)時代的到來,科技情報研究部門對信息的需求量與日俱增,人工檢索數(shù)據(jù)、篩選數(shù)據(jù)的方法必將被淘汰,取而代之的是利用計算機技術自動地對數(shù)據(jù)進行檢索、處理和分析。

        從目前的情況來看,完全用計算機代替科技情報研究人員進行情報分析工作是不現(xiàn)實的,因為很多情報的判讀需要科技情報研究人員常年累積的經(jīng)驗,計算機可以做的是在最大限度上用計算機代替人工做重復性的工作。此外,情報領域與計算機領域有一定距離,情報研究人員往往不懂計算機技術,甚至對軟件的使用都感到棘手。針對上述實際需求,需要開發(fā)一個無監(jiān)督的系統(tǒng),該系統(tǒng)可以按照需要自動采集數(shù)據(jù),并可以對數(shù)據(jù)進行去重、分析。

        基于以上背景,本文計劃在錢學森提出的綜合集成研討方法指導下,基于數(shù)字檔案平臺、科技報告系統(tǒng)等數(shù)據(jù)庫設計建立一套以人為主,數(shù)據(jù)、信息、知識和智慧綜合集成,高度智能化的人機結合智慧情報系統(tǒng),從系統(tǒng)的物理構成來看,包括三部分:一是由參與情報解讀的專家組成的專家體系;二是由為情報工作人員和專家提供各種信息服務的計算機軟硬件技術組成的機器體系;三是由各種形式的信息資源組成的知識體系。從情報分析過程來看,該系統(tǒng)包括三部分:一是基于專家體系經(jīng)驗判讀的定性情報綜合集成系統(tǒng);二是基于數(shù)據(jù)采集處理工具的定量情報分析綜合集成系統(tǒng);三是從定性情報到定量情報的綜合集成系統(tǒng)??傊?,該系統(tǒng)的建設不僅需要建立由不同學科、不同領域?qū)<医M成,具有能面對復雜巨系統(tǒng)問題所需要的合理知識結構的專家體系,而且還需要設計開發(fā)能夠有效處理海量數(shù)據(jù)的工具,實現(xiàn)信息的高效采集與精確分析。從技術構成分析,歸類能力、關聯(lián)性分析能力、輔助解讀能力、報告輔助生成能力是該系統(tǒng)應具備的幾大核心能力。

        文章將主要運用信息智能檢索、數(shù)據(jù)統(tǒng)一結構化、信息抽取、機器學習、自然語言理解等前沿的數(shù)據(jù)挖掘分析技術,對各數(shù)據(jù)庫的結構化與非結構化文本進行處理,實現(xiàn)對海量信息的數(shù)據(jù)挖掘,完成數(shù)據(jù)的關鍵詞輸入、引文爬取、數(shù)據(jù)解析分析、統(tǒng)計。最終形成關于學術專題情報報告雛形。

        二、學術專題檔案情報快速輔助生成系統(tǒng)功能需求分析與系統(tǒng)設計

        大數(shù)據(jù)時代的數(shù)據(jù)特征為情報服務過程中數(shù)據(jù)采集提出了嚴峻的挑戰(zhàn),檔案數(shù)據(jù)庫和科技報告數(shù)據(jù)庫等結構化信息異構、重復,質(zhì)量參差不齊,時效性不強,使數(shù)據(jù)整合成為基礎數(shù)據(jù)資源建設的難點;其次是是如何通過大數(shù)據(jù)時代高度發(fā)展的移動互聯(lián)網(wǎng)技術,充分利用人際網(wǎng)絡獲得一手數(shù)據(jù),并與網(wǎng)絡、文獻和數(shù)據(jù)庫信息進行整合,也成為大數(shù)據(jù)環(huán)境下數(shù)據(jù)采集的難點。與此同時,無論何種數(shù)據(jù)來源,由于數(shù)據(jù)的價值密度低,數(shù)據(jù)篩選技術都是關鍵的技術難題。

        本系統(tǒng)通過利用網(wǎng)絡環(huán)境下的搜索引擎技術、本體庫、SVM分類算法、聚類算法和信息篩選技術,構建面向大數(shù)據(jù)的檔案數(shù)據(jù)庫數(shù)據(jù)、科技報告數(shù)據(jù)庫數(shù)據(jù)、人際網(wǎng)絡數(shù)據(jù)和信息篩選的大數(shù)據(jù)采集與篩選工具,為情報服務的數(shù)據(jù)資源建設提供工具。

        (一)系統(tǒng)需求分析

        1.搜索需求:互聯(lián)網(wǎng)數(shù)據(jù)庫信息是情報服務的主要數(shù)據(jù)來源之一,搜索引擎技術的發(fā)展為互聯(lián)網(wǎng)數(shù)據(jù)的獲取提供了便捷、高效的工具,但是由于算法本身局限性,普通搜索引擎只能采集到約10-30%的信息,只能完成情報大概情況的收集,不能滿足情報檢索中查全率的要求,對于查準率也只能滿足部分要求,這種現(xiàn)狀對于情報服務來說,是對互聯(lián)網(wǎng)信息資源的浪費。本系統(tǒng)需要在普通搜索引擎的基礎上通過重點、互動、專業(yè)垂直搜索,完成深入的、交互式的、專業(yè)的科技情報搜索。本部分的科技情報專用搜索工具是由元搜索系統(tǒng)、重點搜索系統(tǒng)、互動搜索系統(tǒng)、垂直搜索系統(tǒng)和深網(wǎng)接口系統(tǒng)封裝在一起構成。

        2.大數(shù)據(jù)篩選:數(shù)據(jù)庫數(shù)據(jù)具有數(shù)據(jù)價值密度低的特點,因此,數(shù)據(jù)的篩選對于情報服務的質(zhì)量尤為重要。數(shù)據(jù)來源的廣泛性使得大數(shù)據(jù)難以根據(jù)同一標準進行篩選,因而計算機難以獨立完成篩選工作。本系統(tǒng)根據(jù)研究內(nèi)容設定采集數(shù)據(jù)的范圍,將采集得到的數(shù)據(jù)去噪、剔除相似數(shù)據(jù)后,根據(jù)領域詞匯距離、情報點關鍵詞錄、情報報告關鍵詞錄摘錄出較具情報價值的信息,力爭把以十萬計的海量信息壓縮到600條以內(nèi),同時保存足夠的核心信息,并采用人機結合的工作方式,提供專家判讀的界面,為數(shù)據(jù)篩選的準確性提供保障。

        3.動態(tài)情報跟蹤與基于科技主體的社會網(wǎng)絡情報需求。搜索引擎完成的是面向互聯(lián)網(wǎng)數(shù)據(jù)庫數(shù)據(jù)的靜態(tài)數(shù)據(jù)獲取工作,然而對于情報服務來說,動態(tài)跟蹤能夠展現(xiàn)情報研究對象的活動軌跡,對于情報分析具有十分重要的價值。根據(jù)社會網(wǎng)絡理論,完成科技主體(單位和個人)相互關系的表達,從而確定某一主題下各個科技主體的特征,以使我們能從中找到適合進行情報分析判讀的行業(yè)專家。本系統(tǒng)基于移動網(wǎng)絡環(huán)境下的情報采集技術,創(chuàng)新情報采集模式,全面采集由情報所所內(nèi)人員、行業(yè)專家、專業(yè)情報員,通過科技情報生產(chǎn)的規(guī)范化流程、規(guī)范化方法,依照科技情報質(zhì)量控制體系,在情報分析模型方法庫和情報分析方法工具包的協(xié)助下,完成情報的分析流程。

        (二)系統(tǒng)模塊設計

        本系統(tǒng)根據(jù)關鍵詞并行進行科技報告系統(tǒng)網(wǎng)頁爬取與數(shù)字檔案館中的科技檔案爬取,獲取有效的網(wǎng)頁信息與檔案信息,去重、去噪后得到需要的網(wǎng)頁信息與檔案信息。對數(shù)據(jù)進行特定的處理,采用特定的算法對獲取的數(shù)據(jù)進行處理分析,生成需要的圖表格式并得出結論。具體流程如圖1所示。

        按照檔案情報流程節(jié)點的不同,該學術專題情報快速輔助生成系統(tǒng)可以細分為幾個大模塊:搜索大模塊,控制大模塊,整理大模塊,分析大模塊及結論生成大模塊。大模塊下又可細分為幾個小模塊。學術專題情報快速輔助生成系統(tǒng)模塊劃分如圖2所示

        1.搜索模塊:搜索大模塊主要有科技報告系統(tǒng)網(wǎng)頁搜索模塊和數(shù)字檔案搜索模塊兩大模塊。網(wǎng)頁搜索模塊致力于在科技報告系統(tǒng)網(wǎng)絡上搜索與關鍵字相關的網(wǎng)頁集合,為后續(xù)的操作提供初始的科技報告系統(tǒng)網(wǎng)頁信息材料來源。數(shù)字檔案搜索模塊是在制定好的數(shù)字檔案館中搜索與關鍵字相關的檔案集合,得到與關鍵字有密切關系的檔案集合,為之后的整理分析等工作提供初始的材料來源。

        2.控制大模塊:控制大模塊主要有兩個小模塊:內(nèi)存控制模塊和線程控制模塊。無論是從網(wǎng)頁中獲取信息還是從檔案庫中獲取信息,系統(tǒng)在獲取信息過程中獲取的信息容量比較大,所以需要內(nèi)存控制模塊來高效的非配運行此系統(tǒng)的計算機的內(nèi)存,以提高系統(tǒng)運行效率。由于要獲取的信息內(nèi)容十分多,因此采用并行技術進行獲取信息的操作。

        3.整理大模塊:整理大模塊主要有科技報告系統(tǒng)網(wǎng)頁內(nèi)容整理模塊和檔案庫內(nèi)容整理模塊兩大模塊??萍紙蟾嫦到y(tǒng)網(wǎng)頁內(nèi)容整理模塊只要是對獲取到的網(wǎng)頁進行去重,去噪等處理,得到干凈、整齊的網(wǎng)頁內(nèi)容。檔案內(nèi)容整理模塊是對已經(jīng)獲取到的檔案集合進行去重,去噪等處理,獲取格式整齊的檔案內(nèi)容,以便進行后續(xù)工作。

        4.分析大模塊:分析大模塊主要有科技報告系統(tǒng)網(wǎng)頁內(nèi)容分析模塊和檔案內(nèi)容分析模塊兩大模塊??萍紙蟾嫦到y(tǒng)網(wǎng)頁內(nèi)容分析模塊是對前邊已經(jīng)處理過的網(wǎng)頁信息采用分類,對比等特定分析方法對這些內(nèi)容進行分析,以幫助后邊的模塊得到想要的結果。檔案內(nèi)容分析模塊是針對之前通過搜索,處理得到的整齊的檔案信息內(nèi)容采用特定的分類,對比等分析方法對檔案內(nèi)容進行分析,得到分析的結果。

        5.結論生成大模塊:結論生成大模塊主要有科技報告系統(tǒng)網(wǎng)頁生成結論模塊和檔案生成結論模塊兩大模塊??萍紙蟾嫦到y(tǒng)網(wǎng)頁生成結論模塊使用通過關鍵詞篩選出的網(wǎng)頁信息經(jīng)整理、分析得出的結果采用表格,圖表等方式展現(xiàn)給用戶,讓用戶對結論有一個直觀的了解。檔案生成模塊使用通過關鍵詞帥選出的論文信息經(jīng)過整理、分析得到的記過采用與網(wǎng)頁生成結論模塊基本相同的樣式,如表格、柱狀圖、餅圖等方式向用戶展示該關鍵詞搜索的內(nèi)容的結果。便于用戶進行相關的決策等。

        (三)系統(tǒng)架構設計

        系統(tǒng)結構共包括元搜索模塊、垂直搜索模塊、URL調(diào)度器、數(shù)據(jù)存儲器、多線程控制器、源碼解析器和數(shù)據(jù)分析模塊,其中元搜素模塊主要是對科技報告系統(tǒng)網(wǎng)頁數(shù)據(jù)進行檢索;垂直搜索模塊主要是對檔案數(shù)據(jù)庫進行檢索。由于網(wǎng)頁數(shù)據(jù)與檔案庫的格式差異較大,故本系統(tǒng)開發(fā)兩個軟件分別對網(wǎng)頁數(shù)據(jù)和檔案數(shù)據(jù)進行處理。從系統(tǒng)結構上來說,除了信息采集模塊外,兩個軟件的結構基本一致,都是通過上述模塊進行相互協(xié)調(diào)控制。用戶在系統(tǒng)運行初始化時對相關參數(shù)進行設置,如檢索的最大頁數(shù)、檢索的時間間隔等,然后輸入關鍵詞,系統(tǒng)結合上述功能模塊就可以脫離人工自動對數(shù)據(jù)進行檢索和處理,最終實現(xiàn)無監(jiān)督的信息采集工作。

        系統(tǒng)的基本流程:在傳統(tǒng)網(wǎng)絡爬蟲的基礎上進行改進對網(wǎng)頁信息進行抽取,將下載下來的數(shù)據(jù)保存到內(nèi)存中,與之前的一級鏈接相同,當內(nèi)存中的數(shù)據(jù)超過一個閾值時,將它們輸出到本地文件中。

        當全部數(shù)據(jù)抓取下來后,數(shù)據(jù)被分為網(wǎng)頁數(shù)據(jù)與檔案數(shù)據(jù),由于檔案數(shù)據(jù)是標準的結構化數(shù)據(jù),并且科技檔案技術方案的重復率并極低,也不存在大量噪聲數(shù)據(jù),因此可以通過系統(tǒng)的數(shù)據(jù)分析模塊對檔案數(shù)據(jù)進行分析。

        三、學術專題檔案情報快速輔助生成系統(tǒng)的功能實現(xiàn)

        文章以人工智能領域為例,使用本系統(tǒng)進行實驗,驗證本系統(tǒng)的可行性和有效性。一是本系統(tǒng)可以實現(xiàn)對檔案數(shù)據(jù)庫、科技報告數(shù)據(jù)庫的中文數(shù)據(jù)采集搜索,可以自動實現(xiàn)對檔案、科技報告相關詞庫的搜索,對相關文獻詳細信息(包標題、摘要、完成人、完成單位、完成時間、項目名稱等)進行搜索采集,對相關文獻內(nèi)高頻詞匯進行統(tǒng)計分析。二是系統(tǒng)對采集到的數(shù)據(jù)進行歸類、去噪、去重處理,篩選出較具情報價值的信息,運用文獻計量學方法對篩選完的數(shù)據(jù)進行統(tǒng)計分析,形成清晰的檔案文獻相關信息統(tǒng)計分析表格。三是系統(tǒng)可以用來搜索某學術領域相關機構、相關專家,還可以對機構之間的合作關系、專家之間的合作關系、專家學術研究點之間的關系進行可視化展示。

        科技情報是情報學的主要學科,檔案信息、科技報告是情報采集的重要來源,學術專題檔案情報快速輔助生成系統(tǒng)是集檔案情報搜索工具、大數(shù)據(jù)篩選工具、基于科技主體網(wǎng)絡的情報工具為一體的情報工具,可以有效提高情報機構數(shù)據(jù)資源建設能力,對于打造情報機構核心競爭力具有重要促進作用。

        (作者單位:北京市科學技術情報研究所)

        猜你喜歡
        情報網(wǎng)頁數(shù)據(jù)庫
        情報
        情報
        情報
        基于CSS的網(wǎng)頁導航欄的設計
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        網(wǎng)頁制作在英語教學中的應用
        電子測試(2015年18期)2016-01-14 01:22:58
        国产69精品久久久久久久| 国产美女一区三区在线观看| 亚洲一区二区三区偷拍厕所| 成人亚洲精品777777| 亚洲精品国产第一区二区尤物 | 日本一区二区免费高清| 看全色黄大色黄大片 视频| 人人妻人人澡人人爽曰本| 精品国产91久久久久久久a| 日本女优中文字幕亚洲| 成年免费a级毛片免费看| 久久日本三级韩国三级| 亚洲综合一| 成人免费av高清在线| 国产一级黄片久久免费看| 岛国熟女精品一区二区三区| 日本午夜精品理论片a级app发布| 综合网五月| 亚洲最大视频一区二区三区| 97色伦图片97综合影院| 久久老子午夜精品无码怎么打| 国产午夜激情视频自拍| 日本黄网色三级三级三级| 国产果冻豆传媒麻婆精东| 欧美极品少妇性运交| 久久精品国产亚洲av成人擦边 | 久久久精品国产三级精品| 人妻丰满av无码中文字幕| 永久黄网站色视频免费| 亚洲双色视频在线观看| 日本精品视频二区三区| 亚洲精品第一国产综合亚av| 久久国产国内精品对话对白| 国产区一区二区三区性色| 国产内射爽爽大片视频社区在线| 婷婷成人亚洲| 日本高清一区二区三区色| 给你免费播放的视频| 久久久久久久性潮| 人妻av午夜综合福利视频| 日本人妻伦理在线播放|