亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科技情報大數(shù)據(jù)業(yè)務(wù)平臺設(shè)計

        2018-01-10 07:09:34吳素研呂志堅吳江瑞李文波
        現(xiàn)代情報 2018年1期
        關(guān)鍵詞:科技情報情報

        吳素研 呂志堅 吳江瑞 李文波

        (1.北京市科學技術(shù)情報研究所信息技術(shù)研究部,北京100044;2.河南工學院材料工程系,河南 新鄉(xiāng) 100044;3.中國科學院軟件研究所總體部,北京100081))

        ·業(yè)務(wù)研究·

        科技情報大數(shù)據(jù)業(yè)務(wù)平臺設(shè)計

        吳素研1呂志堅1吳江瑞2李文波3

        (1.北京市科學技術(shù)情報研究所信息技術(shù)研究部,北京100044;2.河南工學院材料工程系,河南 新鄉(xiāng) 100044;3.中國科學院軟件研究所總體部,北京100081))

        [目的/意義]本文分析了目前大數(shù)據(jù)時代科技情報工作面臨的問題和機遇,針對情報服務(wù)領(lǐng)域大數(shù)據(jù)服務(wù)模式進行了分析。[方法/過程]該論文結(jié)合信息技術(shù)領(lǐng)域的虛擬化技術(shù)、云平臺技術(shù)、高性能技術(shù)和人工智能技術(shù),設(shè)計了科技情報大數(shù)據(jù)業(yè)務(wù)平臺架構(gòu),詳細闡述了硬件層、虛擬層、支撐層和業(yè)務(wù)層主要功能和所需技術(shù);并對大數(shù)據(jù)處理首要任務(wù)存儲進行了探索,搭建了基于hadoop和hbase的大數(shù)據(jù)存儲平臺。[結(jié)果/結(jié)論]本文提出的大數(shù)據(jù)情報業(yè)務(wù)平臺從整體架構(gòu)進行了設(shè)計,并實現(xiàn)了存儲模塊,下一步實現(xiàn)分析和可視化部門,可以為情報的收集和處理提供大數(shù)據(jù)支撐服務(wù)。

        科技情報;大數(shù)據(jù);hadoop;hbase

        傳統(tǒng)的科技情報工作主要是從公開的、正規(guī)的紙質(zhì)事實文獻上,如科技論文、專利、標準、圖書等獲取信息,提煉出來的客觀情報知識。信息技術(shù)和互聯(lián)網(wǎng)的出現(xiàn),使得科技情報來源的信息載體由紙質(zhì)演變?yōu)閿?shù)字化,情報信息的獲取方式也從專門的機構(gòu)變?yōu)榭梢噪S時隨地訪問的開放網(wǎng)絡(luò)上。

        目前,一方面,網(wǎng)絡(luò)上的信息隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,尤其以由用戶主導而生成的內(nèi)容互聯(lián)網(wǎng)產(chǎn)品模式的Web2.0技術(shù)和以融合為主的第三代互聯(lián)網(wǎng)技術(shù)的發(fā)展,讓信息爆炸式地增長,人類社會也進入了大數(shù)據(jù)時代,目前都是從海量信息中發(fā)現(xiàn)有價值的東西。依據(jù)時代的發(fā)展,科技情報工作已由傳統(tǒng)的以文獻服務(wù)、知識服務(wù)為標志的情報1.0、2.0時代,進入了以智能服務(wù)為標志的情報3.0時代[1]。

        另一方面,計算機硬件技術(shù)和軟件技術(shù)也有了新的突破,硬件方面的DSP、GPU、高性能處理芯片,軟件方面云計算、sdn等技術(shù)[2-4],軟件方面的互聯(lián)網(wǎng)的爬蟲技術(shù)可以實現(xiàn)從網(wǎng)上自動采集信息,人工智能、機器學習、數(shù)據(jù)挖掘、自然語言處理技術(shù)也發(fā)展到相對成熟的階段,這些技術(shù)可以實現(xiàn)文本的自動分類、聚類,可以從大量數(shù)據(jù)中學習有價值的知識,文本檢索技術(shù)可以實現(xiàn)從海量數(shù)據(jù)中找出想要的數(shù)據(jù),這些技術(shù)為快速處理海量數(shù)據(jù)提供了基礎(chǔ)[5-7]。

        有這兩方面需求的驅(qū)動和技術(shù)的支撐,大數(shù)據(jù)技術(shù)應(yīng)運而生,主要包括進行數(shù)據(jù)表示的知識表示技術(shù)、對數(shù)據(jù)進行表示的知識圖譜技術(shù)、對數(shù)據(jù)進行挖掘發(fā)現(xiàn)的深度學習技術(shù),這些技術(shù)是目前進行情報分析的基礎(chǔ),必須引入這些技術(shù)來完成對大規(guī)模信息的處理和分析,解決情報3.0時代所面臨的問題。才能完成數(shù)字化、網(wǎng)絡(luò)化的新時期的情報分析任務(wù)。

        進行情報分析任務(wù),首先面對的就是數(shù)據(jù)的高效存儲,關(guān)系數(shù)據(jù)庫在面對高并發(fā),高負載的低效,以及不易進行升級和擴展,往往需要停機維護和數(shù)據(jù)遷移等缺點是不適宜應(yīng)用在大數(shù)據(jù)業(yè)務(wù)平臺上,搭建高效的存儲平臺是建立大數(shù)據(jù)業(yè)務(wù)的首要任務(wù)。因此本文首先分析了大數(shù)據(jù)時代情報業(yè)務(wù)模式,其次探索利用hadoop和hbase技術(shù)進行大數(shù)據(jù)存儲平臺的搭建。

        1 大數(shù)據(jù)情報業(yè)務(wù)平臺架構(gòu)

        大數(shù)據(jù)指的是數(shù)據(jù)量超過單個臺式機存儲能力數(shù)據(jù),無法用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫進行存儲、單機數(shù)據(jù)分析統(tǒng)計工具無法處理的數(shù)據(jù),這些數(shù)據(jù)需要存放在擁有數(shù)千萬臺機器的大規(guī)模并行系統(tǒng)上進行存儲和分析。大數(shù)據(jù)情報業(yè)務(wù)平臺,需要提供對情報信息的高可靠性、高性能、可伸縮分布式存儲系統(tǒng)和實時的、多維的、智能的分析功能。

        大數(shù)據(jù)情報業(yè)務(wù)員平臺需要對硬件計算和存儲資源的進行合理虛擬化以實現(xiàn)高效的調(diào)配,需要對虛擬的資源進行高效內(nèi)存計算以達到高效計算,在此讓利用深度學習工具加強平臺智能化,最終通過大數(shù)據(jù)可視化實現(xiàn)結(jié)果的展示。它主要分為4層。分別是:硬件資源層,虛擬資源,支撐平臺和情報業(yè)務(wù)服務(wù)??萍记閳蟠髷?shù)據(jù)平臺架構(gòu)如圖1所示。

        1)硬件資源層:大數(shù)據(jù)平臺對硬件的需求主要是:可作為計算設(shè)備的主機、進行數(shù)據(jù)存儲的磁盤和滿足內(nèi)部服務(wù)和對外服務(wù)的網(wǎng)絡(luò)設(shè)備。大數(shù)據(jù)平臺硬件的建設(shè)可以采取2個方案:①采用托管的方式,可以租用云計算平臺。

        圖1 科技情報大數(shù)據(jù)平臺

        ②可以采用自建的方式。采購20臺以上的服務(wù)器和磁盤陣列,搭建私有云平臺即能滿足基本情報服務(wù)。

        2)虛擬資源層:此層對上是透明化底層物理硬件,對下是打破實體結(jié)構(gòu)間的不可切割的障礙,使這些資源的不受現(xiàn)有資源的架設(shè)方式、地域或物理組態(tài)所限制,實現(xiàn)最大化的利用物理硬件。虛擬化技術(shù)分為商用軟件和開源虛擬化技術(shù)兩種。

        3)支撐平臺層:支撐平臺主要完成數(shù)據(jù)的存儲和處理,因此分為數(shù)據(jù)平臺和處理平臺。

        情報的數(shù)據(jù)主要分為無結(jié)構(gòu)的、半結(jié)構(gòu)的和結(jié)構(gòu)化的。對于結(jié)構(gòu)化數(shù)據(jù)可以采用關(guān)系型數(shù)據(jù)庫存儲。對于半結(jié)構(gòu)化的數(shù)據(jù)采用非關(guān)系型數(shù)據(jù)庫存儲。無結(jié)構(gòu)化的數(shù)據(jù)可以采用文件系統(tǒng)存儲。如果對數(shù)據(jù)要進行快速的查找和訪問,還需要有索引的存儲,對索引的處理也有很多成熟的開源技術(shù),如sola、彈性搜索等。

        情報大數(shù)據(jù)平臺處理數(shù)據(jù)最大特點是數(shù)據(jù)量大,因此對數(shù)據(jù)處理性能要求要高。要達到這點首先處理的數(shù)據(jù)就要有原來的硬盤上改為在內(nèi)存出處理,因此內(nèi)存計算技術(shù)是大數(shù)據(jù)平臺的基礎(chǔ)。內(nèi)存技術(shù)主要是對流處理、圖、統(tǒng)計的處理,都已經(jīng)有很多成熟的方法。情報大數(shù)據(jù)的處理除了速度,還需要智能。利用數(shù)據(jù)挖掘技術(shù)從海量信息中找出有價值的情報是大數(shù)據(jù)情報平臺主要的作用之一。因此在對數(shù)據(jù)處理上,深度學習是很重要的。目前已經(jīng)有很多深度學習的算法和工具,并在實際應(yīng)用中獲取過很多有價值的成果。比如,作者曾經(jīng)利用Google開源的Deep Learning工具Word2vec訓練出來的知識應(yīng)用于對人大建議和政協(xié)提案進行模糊查找中和主題詞的推薦中,得到了很好的效果。

        4)情報業(yè)務(wù)層:這一層是大數(shù)據(jù)平臺的業(yè)務(wù)層。情報主要是在對數(shù)據(jù)的處理過程中,獲取價值,數(shù)據(jù)具有多樣性,包括類型,文字的、圖片的。結(jié)構(gòu)化的,非結(jié)構(gòu)化的,所屬領(lǐng)域不同,如低碳、節(jié)能、農(nóng)業(yè)、林業(yè)等。目前對數(shù)據(jù)處理的自動化技術(shù)也是發(fā)展得很好,如對文本處理的搜索、分類、聚類等。對圖像的提取、檢索等。因此根據(jù)情報所情報業(yè)務(wù)的需求和目前的計算機技術(shù)結(jié)合起來,建立能為情報服務(wù)的數(shù)據(jù)處理平臺。這一層是可擴展、組件化的,可以根據(jù)需求不斷進行技術(shù)的更新。目前根據(jù)最基本的需求,設(shè)計了幾個模塊。情報搜索,他和一般的搜索不一樣,它具有行業(yè)性,搜索需要對具有新穎性的東西加以特別關(guān)注、還具有多樣行。當然依托于大數(shù)據(jù)平臺,提高性能更是必不可少的。知識庫的構(gòu)建:目前在自然語言處理比較火的概念之一。建立一個好知識庫,可以對概念進行推理和延伸??梢宰屘幚碜呦蛘Z義化。而知識庫的建立是具有領(lǐng)域性的,可以針對情報所的特定服務(wù)建立該領(lǐng)域知識庫。其次知識庫需要建成能自我完善的,其眾包技術(shù)能很好地起到這個效果。

        基于大數(shù)據(jù)平臺,提供的服務(wù)最終體現(xiàn)在用戶價值上,從服務(wù)的層次上,分為初級和高級。初級可以面向大眾免費提供,如進行情報的檢索和情報數(shù)據(jù)的自動提煉上。而高級服務(wù)可以定制進行,為用戶提供行業(yè)情報,對技術(shù)進行趨勢估計等。

        2 基于hadoop+hbase的大數(shù)據(jù)存儲平臺

        關(guān)系型數(shù)據(jù)庫適用于存儲結(jié)構(gòu)化數(shù)據(jù),不適宜于高并發(fā)訪問和大數(shù)據(jù)量的大數(shù)據(jù)平臺。 Nosql(Not-Only-SQL)就是為半結(jié)構(gòu)化數(shù)據(jù)存儲而生的。Nosql數(shù)據(jù)庫采用Key-Value的形式對數(shù)據(jù)進行存儲,且結(jié)構(gòu)不固定,也就是說一個表的任意一行的列的數(shù)量可以不相同。并且就算定義字段,在不使用的情況下,也并不會占用存儲空間,這樣在某種程度上來說也降低了一定的存儲開銷。同時還具有易擴展性和高可用性的特性,方便部署在廉價的PC服務(wù)器上集群用于處理大規(guī)模的海量數(shù)據(jù)。HBase是Hadoop平臺下數(shù)據(jù)存儲引擎,它能夠為大數(shù)據(jù)提供實時的讀/寫操作。HBase具備開源、分布式、可擴展性以及面向列的存儲特點,使得HBase可以部署在廉價的PC服務(wù)器集群上處理大規(guī)模的海量數(shù)據(jù)。HBase最早是由Google的Bigtable演變而來,他提供了2種存儲方式:一種是使用操作系統(tǒng)的本地文件系統(tǒng);另外一種則是在集群環(huán)境下使用Hadoop的HDFS,相對而言,使用HDFS將會使數(shù)據(jù)更加穩(wěn)定。同時HBase存儲的是松散型數(shù)據(jù),也就是半結(jié)構(gòu)化數(shù)據(jù),那么注定HBase的存儲維度是動態(tài)可變的。也就是說HBase表中的每一行可以包含不同數(shù)量的列,并且某一行的某一列還可以有多個版本的數(shù)據(jù),這主要通過時間戳范圍進行區(qū)分。HBase不僅可以向下提供運算,它還能夠結(jié)合Hadoop的MapReduce向上提供運算,這些都是HBase所具備的特點[8]。根據(jù)上面大數(shù)據(jù)業(yè)務(wù)平臺的架構(gòu),結(jié)合hadoop+hbase技術(shù)搭建了大數(shù)據(jù)存儲的原型系統(tǒng),具體方案如下文所述。

        2.1 系統(tǒng)基礎(chǔ)架構(gòu)

        在兩臺配置處理器:CPU四核,處理速度3.3GHz,內(nèi)存16G,硬盤:1T的Window7的系統(tǒng)上分別安裝Vitualbox,并在每個Vitualbox上安裝5個Ubuntu系統(tǒng),每個性能內(nèi)存2G,存儲200G。按照Hadoop集群的基本要求,其中一個是master結(jié)點,主要是用于運行hadoop程序中的namenode、secondorynamenode和jobtracker任務(wù)。另外9個結(jié)點均為slave結(jié)點,其中一個是用于冗余目的,如果沒有冗余,就不能稱之為hadoop了。slave結(jié)點主要將運行hadoop程序中的datanode和tasktracker任務(wù)。

        在準備好這10個結(jié)點之后,需要分別將Linux系統(tǒng)的主機名重命名和配置IP地址(因為前面是復制和粘帖操作產(chǎn)生另外9個結(jié)點,此時這10個結(jié)點的主機名是一樣的),依此對虛擬系統(tǒng)設(shè)置IP從10.10.1.60到10.10.1.69,修改各個虛擬機hostname文件,將節(jié)點機器名字依次設(shè)置為maste、slave1、slave2、slave3、slave4、slave5、slave6、slave7、slave8、slave9。之后修改各個機器的hosts文件。設(shè)置為:

        圖2 hostname文件配置

        2.2 系統(tǒng)配置

        2.2.1 hadoop配置

        1)設(shè)置Core-site.xml

        圖3 Core-site.xml文件配置

        2)設(shè)置hdfs-site.xml

        圖4 hdfs-site.xml文件配置

        3)設(shè)置mapred-site.xml

        圖5 mapred-site.xml文件配置

        4)設(shè)置yarn-site.xml

        圖6 yarn-site.xml文件配置

        2.2.2 hbase集群配置

        1) 配置hbase-site.xml

        圖7 hbase-site.xml文件配置

        hbase.rootdir指定Hbase數(shù)據(jù)存儲目錄。hbase.cluster.distributed指定是否是完全分布式模式,單機模式和偽分布式模式需要將該值設(shè)為false,hbase.master指定Master的位置,hbase.zookeeper.quorum指定zooke的集群,多臺機器以逗號分隔。

        2)修改conf下的regionservers文件

        圖8 regionservers文件配置

        3)修改Hadoop hdfs-site.xml下的一個屬性值

        維寧爾(veoneer)的前身是全球汽車安全領(lǐng)域的領(lǐng)導者瑞典奧托立夫(Autoliv)公司的電子事業(yè)部。維寧爾(中國)電子有限公司專注于汽車安全電子及自動駕駛等新興市場業(yè)務(wù),維寧爾的目標是成為高級駕駛輔助系統(tǒng)(ADAS)和自動駕駛系統(tǒng)的領(lǐng)先供應(yīng)商。維寧爾(中國)電子有限公司積極順應(yīng)市場需求,著力研發(fā)相關(guān)產(chǎn)品,以期成為汽車安全電子產(chǎn)品市場的領(lǐng)導者。

        圖9 regionservers文件配置

        該參數(shù)限制了datanode所允許同時執(zhí)行的發(fā)送和接受任務(wù)的數(shù)量,缺省為256,hadoop-defaults.xml中通常不設(shè)置這個參數(shù)。這個限制缺省值實際使用情況下有些偏小,高負載情況下影響集群性能,需要根據(jù)實際集群條件設(shè)置一下。

        2.2.3 hadoop和hbase啟動和停止

        啟動順序:先啟動Hadoop-?hbase。

        進入hadoop文件夾下執(zhí)行命令:./sbin/start-dfs.sh;./sbin/start-yarn.sh;分別啟動hadoop的文件系統(tǒng)和任務(wù)調(diào)度系統(tǒng)。通過jps查看節(jié)點狀態(tài),在maste和slave上分別顯示如下圖所示,表示hadoop啟動成功。

        圖10 hadoop啟動任務(wù)

        進入hbase文件夾下執(zhí)行命令:./bin/start-hbase.sh,運行后通過jps查看節(jié)點狀態(tài),出現(xiàn)黃色框起來的任務(wù)表示啟動成功。

        圖11 hbase啟動任務(wù)

        停止順序:hbase->hadoop,依次執(zhí)行./bin/stop-hbase.sh;./sbin/stop-yarn.sh;./sbin/stop-dfs.sh;即可停止hbase和hadoop。

        2.2.4 java代碼實現(xiàn)hbase簡單存儲

        圖12 hbase建庫和插入數(shù)據(jù)代碼

        3 結(jié) 語

        本文分析了目前大數(shù)據(jù)時代科技情報工作面臨的問題和機遇,結(jié)合信息技術(shù)領(lǐng)域的虛擬化技術(shù)、云平臺技術(shù)、高性能技術(shù)和人工智能技術(shù),設(shè)計了科技情報大數(shù)據(jù)業(yè)務(wù)平臺架構(gòu),并對大數(shù)據(jù)處理首要任務(wù)存儲進行了探索,搭建了基于hadoop和hbase的大數(shù)據(jù)存儲平臺。下一步,將在此基礎(chǔ)上,將人工智能技術(shù)嵌入到大數(shù)據(jù)平臺上,實現(xiàn)情報的大數(shù)據(jù)挖掘,最終,嵌入大數(shù)據(jù)可視化技術(shù),對情報結(jié)果進行展示。

        [1]吳晨生,李輝,付宏,等.情報服務(wù)邁向3.0時代[J].情報理論與實踐,2015,38(9):1-7.

        [2]Bolz J,Farmer I,Grinspun E,et al.Sparse matrix solvers on the GPU[J].Acm Transactions on Graphics,2003,22(3).

        [3]Hayes B.Cloud computing[J].Communications of the Acm,2008,51(7):9-11.

        [4]Dixit A,Fang H,Mukherjee S,et al.Towards an elastic distributed SDN controller[M]// ACM SIGCOMM Computer Communication Review.ACM,2013:7-1

        [5]Naimi A I,Westreich D J.Big Data:A Revolution That Will Transform How We Live,Work,and Think.[J].American Journal of Epidemiology,2014,17(9):181-183.

        [6]Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.

        [7]吳信東.數(shù)據(jù)挖掘十大算法[M].李文波,吳素研,譯.北京:清華大學出版社,2013.

        [8]Mehul,Nalin,Vora.Hadoop-HBase for large-scale data[C]// International Conference on Computer Science and Network Technology.IEEE,2012:601-605.

        BigDataPlatformforScienceandTechnologyIntelligence

        Wu Suyan1Lyu Zhijian1Wu Jiangrui2Li Wenbo3

        (1.Beijing Institute of Science and Technology Information,Beijing 100044,China;2.Henan Institute Technology,Xinxiang 453003,China;3.Institute of Software Chinese Academy of Science,Beijing 100081,China)

        [Purpose/Signficance]This paper analyzed the current big data era of science and technology Intelligence work problems and opportunities.[Method/Process]Combined with information technology,virtualization technology,cloud platform technology,high performance technology and artificial intelligence technology,design science and technology information data service platform architecture,described the hardware layer,virtual layer,support layer and business layer and main function the required technology;and explored the primary task of big data storage,to build a large data storage platform based on Hadoop and hbase.[Resule/Conclusion]Big data business intelligence platform was proposed in this paper was designed from the overall architecture,and implemented the storage module,realized the analysed and visualization department next,could provide support services for large data collection and processing of information.

        scientific and technical intelligence;big data;hadoop;hbase

        10.3969/j.issn.1008-0821.2018.01.019

        TP393

        A

        1008-0821(2018)01-0131-05

        2017-08-04

        北京市財政項目(項目編號PXM2017_178214_000005)、北京市科學技術(shù)情報研究所改革與發(fā)展專項(2017)。

        吳素研(1977-),女,副研究員,博士,研究方向:科技情報、大數(shù)據(jù)。呂志堅(1975-),男,副研究員,博士,研究方向:科技情報、人工智能。吳江瑞(1968-),男,高級技師,研究方向:焊接。

        孫國雷)

        猜你喜歡
        科技情報情報
        情報
        情報
        基于CiteSpace的科技情報研究現(xiàn)狀與前沿趨勢可視化分析
        情報
        復雜信息環(huán)境下科技情報理論體系構(gòu)建問題研究
        情報學報(2022年6期)2022-07-02 07:18:26
        基于數(shù)據(jù)工程的國防科技情報生態(tài)體系構(gòu)建
        情報
        情報
        銅陵市科技情報工作存在的問題與發(fā)展對策
        安徽科技(2018年9期)2018-12-31 12:54:31
        加強科技情報檔案管理工作的建議
        国产免费一区二区在线视频| 99国产超薄丝袜足j在线播放| 国产成人综合久久精品推荐免费| 国产高清在线精品一区不卡| 色偷偷激情日本亚洲一区二区| 久久99精品九九九久久婷婷| 中文字幕在线亚洲日韩6页手机版| 亚洲成熟丰满熟妇高潮XXXXX | 久久中文字幕av一区二区不卡 | 一本大道无码av天堂| 久久99精品久久久久久齐齐百度| 日本黑人人妻一区二区水多多| 亚洲成人av在线第一页| 国产揄拍国产精品| 婷婷丁香五月亚洲| 日韩av中文字幕亚洲天| 免费人成视频网站在线不卡| 成人免费777777被爆出| 亚洲AV一二三四区四色婷婷| 中文字幕人妻乱码在线| 欧美黑人巨大videos精品| av在线亚洲欧洲日产一区二区| 久久一区二区三区四区| 色综合久久精品中文字幕| 亚洲色偷偷偷综合网| 亚洲熟女乱色一区二区三区| 国产传媒在线视频| 精品嫩模福利一区二区蜜臀| 国产精品女人呻吟在线观看| 国产精品一区二区电影| 日本黄色一区二区三区视频| 亚洲一区二区三区高清在线| 又爽又黄又无遮挡网站动态图| 久久波多野结衣av| 国产午夜精品综合久久久| 国产av无码专区亚洲精品| 久久免费的精品国产v∧| 高潮喷水无遮挡毛片视频| 日本视频在线观看一区二区| 极品嫩模高潮叫床| 免费毛片在线视频|