亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)開(kāi)源信息智能采集與分析平臺(tái)設(shè)計(jì)

        2021-02-27 09:17:18
        科學(xué)與信息化 2021年1期
        關(guān)鍵詞:智能分析信息

        北京道達(dá)天際科技有限公司 北京 100049

        引言

        隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展,可供人們利用的網(wǎng)絡(luò)信息飛速膨脹,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)≈槐M,用之不竭的公開(kāi)來(lái)源信息資源寶庫(kù)。開(kāi)源信息的價(jià)值與日俱增,在各類(lèi)數(shù)據(jù)體系中占據(jù)相當(dāng)大的比重,其發(fā)揮的作用也越來(lái)越大,正成為分析決策、科研活動(dòng)、技術(shù)研究的強(qiáng)大支持。信息挖掘技術(shù)不斷革新的今天,已經(jīng)逐漸擺脫了幾十年前人工分析信息和收集信息的模式,計(jì)算機(jī)智能算法、大數(shù)據(jù)可視化、知識(shí)圖譜等技術(shù)的引入,極大地增強(qiáng)了信息處理能力,同時(shí)也對(duì)信息價(jià)值的挖掘和利用產(chǎn)生深遠(yuǎn)影響。

        面向現(xiàn)代社會(huì)對(duì)互聯(lián)網(wǎng)開(kāi)源信息采集與分析挖掘應(yīng)用的迫切需求,結(jié)合自然語(yǔ)言理解、知識(shí)圖譜、時(shí)空分析等關(guān)鍵技術(shù),構(gòu)建互聯(lián)網(wǎng)開(kāi)源信息采集與分析的技術(shù)體系,支持從社交媒體、門(mén)戶(hù)網(wǎng)站、新聞媒體、論壇等各類(lèi)互聯(lián)網(wǎng)信源中自動(dòng)采集關(guān)注的信息,支持對(duì)開(kāi)源數(shù)據(jù)進(jìn)行清洗治理、自動(dòng)抽取、事件發(fā)現(xiàn)、關(guān)聯(lián)分析、綜合展示等處理和分析,支持各類(lèi)業(yè)務(wù)信息監(jiān)測(cè)預(yù)警、態(tài)勢(shì)分析、綜合研判,滿(mǎn)足互聯(lián)網(wǎng)開(kāi)源數(shù)據(jù)分析挖掘應(yīng)用的能力體系需要,為正確認(rèn)識(shí)、快速處理和有效使用互聯(lián)網(wǎng)開(kāi)源信息奠定基礎(chǔ)。

        1 平臺(tái)設(shè)計(jì)

        1.1 技術(shù)框架設(shè)計(jì)

        互聯(lián)網(wǎng)開(kāi)源信息智能采集與分析平臺(tái)按照“云+端”架構(gòu)來(lái)進(jìn)行設(shè)計(jì),可以劃分為三層,分別是資源層、服務(wù)層、應(yīng)用層,如圖1所示。

        圖1 技術(shù)架構(gòu)設(shè)計(jì)

        (1)資源層

        資源層是互聯(lián)網(wǎng)開(kāi)源信息智能采集與分析平臺(tái)和數(shù)據(jù)源支撐,其中硬件方面需涵蓋存儲(chǔ)設(shè)備、計(jì)算設(shè)備、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、服務(wù)器等硬件資源;軟件方面提供針對(duì)固定信源的定向自動(dòng)采集和針對(duì)個(gè)性需要的交互采集兩種功能,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)及搜索引擎采集公開(kāi)原始信息數(shù)據(jù)存儲(chǔ)至云端,為系統(tǒng)運(yùn)行提供數(shù)據(jù)資源和硬件設(shè)備資源保障。

        (2)服務(wù)層

        服務(wù)層是互聯(lián)網(wǎng)開(kāi)源信息數(shù)據(jù)挖掘分析系統(tǒng)的中樞大腦,為系統(tǒng)的存儲(chǔ)管理、分析計(jì)算提供能力服務(wù)保障,按功能劃分為數(shù)據(jù)中心層和分析支撐層。

        數(shù)據(jù)中心層主要分為數(shù)據(jù)治理以及數(shù)據(jù)存儲(chǔ)管理兩部分,主要包含分布式并行計(jì)算處理、全文檢索引擎、人工智能框架、微服務(wù)管理平臺(tái)、分析模型管理等底層應(yīng)用支撐服務(wù),為系統(tǒng)業(yè)務(wù)分析提供通用的底層平臺(tái)框架;數(shù)據(jù)庫(kù)主要解決結(jié)合業(yè)務(wù)流程加工形成的開(kāi)源信息和數(shù)據(jù)產(chǎn)品的存儲(chǔ)管理,按功能應(yīng)用要求分別存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、內(nèi)存型數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)、OSS面向?qū)ο笪募到y(tǒng)等。

        分析支撐層是平臺(tái)功能應(yīng)用的核心支撐部分,在原始開(kāi)源數(shù)據(jù)人機(jī)結(jié)合治理清洗,形成先驗(yàn)知識(shí)庫(kù)的基礎(chǔ)上,開(kāi)展要素提取、信息分類(lèi)、數(shù)據(jù)計(jì)算、屬性融合、業(yè)務(wù)分析等工作,主要負(fù)責(zé)圖像識(shí)別、OCR識(shí)別、實(shí)體識(shí)別、關(guān)鍵詞提取、去重過(guò)濾、屬性一致性、屬性補(bǔ)全、屬性標(biāo)準(zhǔn)化、事件及實(shí)體分級(jí)分類(lèi)、事件要素歸一化、知識(shí)建模、關(guān)聯(lián)分析、統(tǒng)計(jì)分析、情感分析等數(shù)據(jù)組織及處理,最終形成數(shù)據(jù)分析成果集。

        (3)應(yīng)用層

        應(yīng)用層主要解決平臺(tái)的業(yè)務(wù)數(shù)據(jù)可視化能力,為用戶(hù)提供層次清晰、操作方便的交互體驗(yàn),支撐用戶(hù)使用直觀易操作的界面功能進(jìn)行開(kāi)源信息分析挖掘工作,主要應(yīng)用包括開(kāi)源門(mén)戶(hù)、重點(diǎn)關(guān)注事件態(tài)勢(shì)監(jiān)視、各大事件體系編成、業(yè)務(wù)運(yùn)用分析、重大事件案例 復(fù)盤(pán)等。

        1.2 平臺(tái)能力構(gòu)成

        (1)開(kāi)源信息智能采集

        面向互聯(lián)網(wǎng)各類(lèi)開(kāi)源信息搜集任務(wù)需要,設(shè)計(jì)針對(duì)固定信源的定向自動(dòng)采集和針對(duì)個(gè)性需要的交互采集兩種手段,支持用戶(hù)從互聯(lián)網(wǎng)中的各類(lèi)政府門(mén)戶(hù)、資訊網(wǎng)站、知識(shí)百科、社交網(wǎng)絡(luò)、位置服務(wù)等信源中采集相關(guān)地理數(shù)據(jù)、事件動(dòng)向、智庫(kù)報(bào)告、網(wǎng)絡(luò)輿情、科技信息等,實(shí)現(xiàn)有針對(duì)性、行業(yè)性、精準(zhǔn)性的數(shù)據(jù)抓取,并支持對(duì)采集的文本信息、視頻、圖片、文檔等原始數(shù)據(jù)進(jìn)行存儲(chǔ)管理。

        定向采集主要采用分布式網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)解析、圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理、知識(shí)圖譜等關(guān)鍵技術(shù),基于開(kāi)源網(wǎng)頁(yè)數(shù)據(jù),自動(dòng)獲取網(wǎng)頁(yè)中的文本、視頻、圖片、文檔等數(shù)據(jù)。

        交互采集主要采用搜索引擎、智能主題推薦、用戶(hù)行為學(xué)習(xí)、信息置信度評(píng)估等關(guān)鍵技術(shù),根據(jù)用戶(hù)關(guān)注點(diǎn),從互聯(lián)網(wǎng)中搜集并聚焦用戶(hù)感興趣的數(shù)據(jù)。

        (2)開(kāi)源信息清洗處理

        通過(guò)互聯(lián)網(wǎng)開(kāi)源信息采集將海量信息和數(shù)據(jù)采集之后,對(duì)數(shù)據(jù)進(jìn)行分揀和預(yù)處理,實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)加智與利益的更大化、更專(zhuān)業(yè)化的目的。使得不同來(lái)源的數(shù)據(jù)格式相對(duì)統(tǒng)一、關(guān)聯(lián)標(biāo)識(shí)清楚,在一定程度上減少后續(xù)數(shù)據(jù)存儲(chǔ)處理量,方便更為復(fù)雜的業(yè)務(wù)處理,為業(yè)務(wù)分析應(yīng)用提供必要支撐[1]。

        開(kāi)源信息清洗處理的主要針對(duì)采集到的原始互聯(lián)網(wǎng)信息進(jìn)行一系列的預(yù)處理加工,為后續(xù)信息分析挖掘工作提供數(shù)據(jù)支撐。面向開(kāi)源信息采集過(guò)程中用戶(hù)蹤跡與習(xí)慣的隱蔽等方面的安全需求,采用病毒查殺、深度清理等手段對(duì)采集的開(kāi)源信息檢測(cè)和處理,確保數(shù)據(jù)安全。提供木馬/病毒檢測(cè)查殺和文件檢測(cè)與清洗、文字翻譯、語(yǔ)義識(shí)別、自然語(yǔ)言處理、重復(fù)數(shù)據(jù)檢測(cè)、自動(dòng)分類(lèi)、內(nèi)容抽取、自動(dòng)摘要、數(shù)據(jù)標(biāo)識(shí)等功能。

        其中數(shù)據(jù)清洗與語(yǔ)義識(shí)別是預(yù)處理過(guò)程中的關(guān)鍵步驟,數(shù)據(jù)清洗目前主要采取樣本分析和內(nèi)容過(guò)濾等方式,對(duì)垃圾信息進(jìn)行辨別和分離。通過(guò)人工制定判別規(guī)則和機(jī)器學(xué)習(xí)相結(jié)合來(lái)識(shí)別目標(biāo)數(shù)據(jù),然后通過(guò)精確的數(shù)據(jù)抽取算法,精準(zhǔn)定位目標(biāo)數(shù)據(jù),從而消除垃圾數(shù)據(jù)。語(yǔ)義識(shí)別主要采取中文分詞技術(shù)、文本特征提取技術(shù)、情感分析和意圖識(shí)別等技術(shù)結(jié)合各種分類(lèi)模型與深度學(xué)習(xí)算法實(shí)現(xiàn)[2]。

        (3)開(kāi)源信息分析挖掘

        經(jīng)過(guò)預(yù)處理的開(kāi)源信息數(shù)據(jù),需要進(jìn)一步進(jìn)行分析挖掘,從海量數(shù)據(jù)中提取出有價(jià)值的信息,將這些信息合并,搜索隱藏于其中的潛在的有用的信息,這些信息是有潛在價(jià)值的,是各類(lèi)用戶(hù)可理解的、可運(yùn)用的,支持輔助決策,可以為用戶(hù)帶來(lái)利益,或?yàn)榭茖W(xué)研究尋找突破口。通過(guò)人工智能、深度學(xué)習(xí)、大數(shù)據(jù)分析等前沿技術(shù)構(gòu)建良好的實(shí)體標(biāo)簽體系、先驗(yàn)知識(shí)庫(kù)、建模分析庫(kù)等數(shù)據(jù)分類(lèi)、處理和分析工具集,提供數(shù)據(jù)聚合、關(guān)系分析、統(tǒng)計(jì)分析、態(tài)勢(shì)分析、時(shí)間序列分析、關(guān)聯(lián)圖譜分析、二三維空間分析等分析工具,為挖掘更精細(xì)、價(jià)值密度更高的開(kāi)源信息提供手段。

        (4)開(kāi)源信息綜合顯示

        針對(duì)龐雜的開(kāi)源信息以及分析挖掘成果,構(gòu)建形象生動(dòng)、層次豐富、操作便捷的可視化場(chǎng)景,實(shí)現(xiàn)大批量、多圖層、高實(shí)時(shí)、高并發(fā)的開(kāi)源信息可視化生成與操作,能夠按照區(qū)域、類(lèi)別和主題等不同內(nèi)容,形象生動(dòng)的展示開(kāi)源信息及信息內(nèi)在關(guān)系、演變趨勢(shì),為用戶(hù)理解、掌握和利用開(kāi)源信息提供支撐。

        1.3 典型業(yè)務(wù)流程

        按照互聯(lián)網(wǎng)開(kāi)源信息智能采集與分析平臺(tái)技術(shù)體系與能力構(gòu)成,可以劃分為開(kāi)源信息智能采集、開(kāi)源信息清洗處理、開(kāi)源信息分析挖掘、開(kāi)源信息綜合顯示等典型流程。

        (1)開(kāi)源信息智能采集流程

        主要解決來(lái)源于新聞網(wǎng)站、社交媒體、門(mén)戶(hù)網(wǎng)站、研究機(jī)構(gòu)網(wǎng)站等關(guān)于開(kāi)源信息的近實(shí)時(shí)數(shù)據(jù)搜集問(wèn)題,主要包括數(shù)據(jù)源管理設(shè)置、開(kāi)源數(shù)據(jù)抓取、數(shù)據(jù)采集頻率配置、數(shù)據(jù)采集監(jiān)控等操作。如圖2所示。

        圖2 開(kāi)源信息智能采集流程

        (2)開(kāi)源信息清洗處理流程

        主要解決將多源異構(gòu)的開(kāi)源信息治理形成格式化、計(jì)算機(jī)程序可自動(dòng)化處理分析的結(jié)構(gòu)化數(shù)據(jù),主要包括文本數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)、文檔數(shù)據(jù)的自動(dòng)去重、自動(dòng)抽取、自動(dòng)提取關(guān)鍵字和摘要信息、圖像識(shí)別和標(biāo)注、提取視頻相關(guān)文字信息、OCR文字識(shí)別等操作。如圖3所示[3]。

        圖3 開(kāi)源信息清洗處理流程

        (3)開(kāi)源信息分析挖掘流程

        主要提供數(shù)據(jù)分析人員基于搜集整理的開(kāi)源信息數(shù)據(jù),提供時(shí)空序列分析、信息關(guān)聯(lián)分析、知識(shí)圖譜分析、統(tǒng)計(jì)分析、動(dòng)態(tài)分析、趨勢(shì)分析、態(tài)勢(shì)分析、規(guī)律挖掘等大數(shù)據(jù)分析模型及工具,支撐用戶(hù)動(dòng)向研判、監(jiān)測(cè)預(yù)警以及輔助決策等開(kāi)源信息應(yīng)用和分析研究工作。如圖4所示。

        圖4 開(kāi)源信息分析挖掘流程

        (4)開(kāi)源信息綜合顯示流程

        主要解決復(fù)雜開(kāi)源數(shù)據(jù)的管理與展示問(wèn)題,結(jié)合二三維地理、時(shí)空序列、統(tǒng)計(jì)圖表、知識(shí)圖譜、動(dòng)畫(huà)、文字等多種可視化表達(dá)方式,按照區(qū)域、類(lèi)別和主題等不同內(nèi)容,形象生動(dòng)的展示開(kāi)源數(shù)據(jù)及數(shù)據(jù)內(nèi)在的關(guān)系,為用戶(hù)理解、掌握和利用開(kāi)源信息提供支撐。如圖5所示[4]。

        圖5 開(kāi)源信息綜合顯示流程

        2 結(jié)束語(yǔ)

        互聯(lián)網(wǎng)開(kāi)源信息的特性決定了其采集過(guò)程、分析過(guò)程必定以智能化、自動(dòng)化分析為主,人工分析為輔助,互聯(lián)網(wǎng)開(kāi)源信息智能采集與分析平臺(tái)從設(shè)計(jì)與研發(fā)上全面采用人工智能與深度學(xué)習(xí)、大數(shù)據(jù)分析挖掘、高并發(fā)實(shí)時(shí)處理等前沿技術(shù),構(gòu)建良好的開(kāi)源信息采集、清洗處理和分析挖掘能力體系。

        互聯(lián)網(wǎng)開(kāi)源信息智能采集與分析平臺(tái)能夠降低開(kāi)源信息使用人員的主觀因素影響、迅捷找到想要的開(kāi)源信息、充分挖掘隱藏的高價(jià)值信息。本文提出的互聯(lián)網(wǎng)開(kāi)源信息智能采集與分析的技術(shù)架構(gòu)及能力體系,能夠?yàn)榛ヂ?lián)網(wǎng)開(kāi)源大數(shù)據(jù)應(yīng)用領(lǐng)域提供有價(jià)值的參考。

        猜你喜歡
        智能分析信息
        隱蔽失效適航要求符合性驗(yàn)證分析
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        展會(huì)信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        亚洲精品一区二区| 91l视频免费在线观看| 久久久免费看少妇高潮| 久久精品国产免费观看| 国产尤物精品自在拍视频首页| 爆乳日韩尤物无码一区| 国产女主播福利一区二区 | 夫妻免费无码v看片| 少妇高潮惨叫正在播放对白| 深夜国产成人福利在线观看女同| 亚洲精品99久91在线| 久久天堂一区二区三区av| 国精品无码一区二区三区在线蜜臀| 久久青草免费视频| 国产一级一厂片内射视频播放| 国产一区二区三区中文在线| 国产女人高潮视频在线观看 | 久久无码av中文出轨人妻| 国产精品成人嫩妇| 国产成人精品一区二区日出白浆| 淫片一区二区三区av| 国产又爽又粗又猛的视频| 韩国精品一区二区三区 | 真人做爰片免费观看播放| 极品少妇hdxx麻豆hdxx| 黑人玩弄人妻中文在线| 免费视频成人 国产精品网站| 大尺度极品粉嫩嫩模免费| 久久久极品少妇刺激呻吟网站| 曰韩无码二三区中文字幕| 亚洲两性视频一三区| 女同在线视频一区二区| 真实的国产乱xxxx在线| 亚洲不卡中文字幕无码| 亚洲中文字幕av一区二区三区人| 精品国产亚洲av高清大片| 激情第一区仑乱| 日本精品免费一区二区三区| 国产在线一区二区三区四区乱码| 精品久久久久香蕉网| 日本高清不卡二区|