亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多源異構(gòu)數(shù)據(jù)融合技術(shù)的研究*

        2022-06-24 03:04:16王彥婕
        山西電子技術(shù) 2022年3期
        關(guān)鍵詞:晉中科技融合

        王彥婕

        (山西省信息產(chǎn)業(yè)技術(shù)研究院有限公司,山西 太原 030012)

        1 緒論

        數(shù)據(jù)引領(lǐng)未來,在大數(shù)據(jù)時(shí)代,單一來源數(shù)據(jù)無法滿足日益發(fā)展的多元化信息系統(tǒng)需求??筛兄獢?shù)據(jù)雖然具備多源性,但其信息不完整、鏈路不清晰,存在交叉多義、缺乏信任;當(dāng)前數(shù)據(jù)驅(qū)動(dòng)的社會(huì)治理范式中,廣泛存在一源多用"偽Big Data",典型表現(xiàn)是各類項(xiàng)目重復(fù)申報(bào)、多頭申報(bào);政府決策對(duì)數(shù)據(jù)多源采集、融合應(yīng)用提出了要求。這一系列問題促使多源數(shù)據(jù)融合成為時(shí)代發(fā)展的必然要求。

        本文通過對(duì)多源異構(gòu)數(shù)據(jù)融合技術(shù)的研究,將其典型應(yīng)用于晉中市科技計(jì)劃管理信息平臺(tái),實(shí)現(xiàn)對(duì)關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)、上傳的PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、網(wǎng)頁爬蟲數(shù)據(jù)等進(jìn)行融合分析,將科技項(xiàng)目主體與PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、網(wǎng)頁爬蟲數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合匯聚,消除數(shù)據(jù)之間的不精確、不一致,提高數(shù)據(jù)可靠性,從多維度、全方位為決策提供支持;運(yùn)用到項(xiàng)目查重模塊,實(shí)現(xiàn)項(xiàng)目在進(jìn)行查重時(shí),從原有基于項(xiàng)目名稱、項(xiàng)目負(fù)責(zé)人等結(jié)構(gòu)化查重的基礎(chǔ)上,增加了基于項(xiàng)目全文、網(wǎng)絡(luò)爬蟲數(shù)據(jù)的非結(jié)構(gòu)化查重分析,更精確、更科學(xué)對(duì)申報(bào)項(xiàng)目作出客觀評(píng)價(jià)。晉中科技計(jì)劃管理平臺(tái)在加入多源異構(gòu)數(shù)據(jù)融合技術(shù)后實(shí)現(xiàn)了業(yè)務(wù)管理與決策支持的融合應(yīng)用,形成決策有依據(jù),辦事有程序,權(quán)力受監(jiān)督的項(xiàng)目管理體系。

        2 多源異構(gòu)數(shù)據(jù)融合技術(shù)的研究

        多源異構(gòu)數(shù)據(jù)融合技術(shù)涉及數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)融合分析三個(gè)階段,針對(duì)每個(gè)階段我們首先進(jìn)行了通用技術(shù)研發(fā),然后結(jié)合晉中科技平臺(tái)的應(yīng)用場(chǎng)景,在通用技術(shù)的基礎(chǔ)上進(jìn)行了專項(xiàng)開發(fā)、調(diào)優(yōu)處理,滿足具體的應(yīng)用需求。

        2.1 數(shù)據(jù)采集

        多源數(shù)據(jù)來源是結(jié)構(gòu)化數(shù)據(jù)(關(guān)系型數(shù)據(jù)庫(kù))、非結(jié)構(gòu)化數(shù)據(jù)(文件數(shù)據(jù)、文本數(shù)據(jù)、圖片數(shù)據(jù)等)和網(wǎng)絡(luò)爬蟲技術(shù)獲取的數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)來源項(xiàng)目本身和通過與相關(guān)系統(tǒng)對(duì)接獲取,網(wǎng)絡(luò)爬蟲數(shù)據(jù)是從互聯(lián)網(wǎng)上獲取數(shù)據(jù)。本項(xiàng)目采用爬蟲系統(tǒng)制定一定規(guī)則進(jìn)行多源數(shù)據(jù)的爬取。爬蟲系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)處理方案的設(shè)計(jì)與編輯,完成數(shù)據(jù)獲取、處理算法、處理環(huán)節(jié)、結(jié)果分發(fā)或存儲(chǔ)等全過程的配置方案,明確處理規(guī)模、處理速度、優(yōu)先級(jí)等方面的指標(biāo)要求,實(shí)現(xiàn)對(duì)政府網(wǎng)站、新聞網(wǎng)站等網(wǎng)絡(luò)爬蟲站點(diǎn)數(shù)據(jù)的深度爬取,完成網(wǎng)頁展現(xiàn)數(shù)據(jù)屬性的全維度探測(cè)。

        網(wǎng)頁爬取結(jié)果需要進(jìn)行去重處理,考慮爬取網(wǎng)頁數(shù)量非常龐大,對(duì)網(wǎng)頁去重進(jìn)行優(yōu)化處理。

        在晉中科技平臺(tái)中,數(shù)據(jù)來源包括本地?cái)?shù)據(jù)、與相關(guān)系統(tǒng)對(duì)接數(shù)據(jù)、爬蟲數(shù)據(jù)三類。本地?cái)?shù)據(jù)包括項(xiàng)目申報(bào)數(shù)據(jù)、上傳的PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)。與相關(guān)系統(tǒng)對(duì)接數(shù)據(jù)包括與省科技廳、市數(shù)據(jù)共享交換平臺(tái)獲取的數(shù)據(jù)。爬蟲數(shù)據(jù)是通過爬蟲系統(tǒng)定時(shí)爬取科技部網(wǎng)站、中央人民政府網(wǎng)站科技專題、新華網(wǎng)科技目錄、各省科技廳網(wǎng)站等網(wǎng)頁數(shù)據(jù),爬取內(nèi)容包括網(wǎng)站發(fā)布原有分類下的各級(jí)標(biāo)題、發(fā)布時(shí)間、正文內(nèi)容、url及相關(guān)附件等信息,并對(duì)爬取的網(wǎng)頁信息進(jìn)行去重、分類整理入庫(kù)。

        2.2 數(shù)據(jù)清洗

        將多源數(shù)據(jù)采集完成后,需要完成數(shù)據(jù)的清洗工作。多源數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜(或是json或是自定義的嵌套結(jié)構(gòu)),不利于數(shù)據(jù)分析,需要從這些數(shù)據(jù)中將用戶關(guān)注的字段單獨(dú)抽取出來,構(gòu)建成一個(gè)通用的簡(jiǎn)單的業(yè)務(wù)模型,一方面簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)、減少數(shù)據(jù)量,另一方面為數(shù)據(jù)分析提供通用的簡(jiǎn)單的數(shù)據(jù)模式。

        數(shù)據(jù)清洗需要遵循以下要求:

        1)數(shù)據(jù)一致性:按照規(guī)則進(jìn)行命名,生成音視頻、圖像的id字段,作為數(shù)據(jù)管理的唯一標(biāo)識(shí),插入到信息表中。按照不同類型數(shù)據(jù)格式要求,將音頻、視頻、文本、圖像轉(zhuǎn)換成指定的格式,并按照目錄規(guī)范,將數(shù)據(jù)放入目錄中。

        2)缺失數(shù)據(jù)處理:當(dāng)某條信息中缺失了對(duì)應(yīng)的音視頻,去除Fields.json(或Fields.csv)中的該條記錄。當(dāng)音頻或視頻等內(nèi)容文件缺失Fields.json(或Fields.csv)中對(duì)應(yīng)記錄時(shí),應(yīng)補(bǔ)全記錄或者刪除該內(nèi)容文件。

        3)重復(fù)數(shù)據(jù)處理:去除內(nèi)容重復(fù)的音頻、視頻、文本和圖像數(shù)據(jù)項(xiàng)。

        4)內(nèi)容文件異常處理:對(duì)于音頻文件,需要截?cái)嘁纛l收尾靜音部分;對(duì)于圖像、視頻、文本,需要去除或修復(fù)異常、錯(cuò)誤文件。

        數(shù)據(jù)處理過程中要對(duì)任務(wù)過程監(jiān)視,處理計(jì)算任務(wù)調(diào)度,處理過程如圖1所示。

        圖1 數(shù)據(jù)清洗過程圖

        2.3 數(shù)據(jù)融合分析

        晉中市科技平臺(tái)在使用數(shù)據(jù)清洗功能組件后,可以實(shí)時(shí)、批量、高速處理多種數(shù)據(jù)源的非結(jié)構(gòu)化數(shù)據(jù),極大地提升了系統(tǒng)的數(shù)據(jù)處理、分析能力。

        平臺(tái)數(shù)據(jù)清洗和監(jiān)控過程:數(shù)據(jù)源直接連接到爬蟲數(shù)據(jù)庫(kù),將數(shù)據(jù)查詢出來之后,管道開始進(jìn)行批量處理,經(jīng)JSON轉(zhuǎn)換之后,將多余字段移除,按照清洗規(guī)則,將符合條件的數(shù)據(jù)篩選交給下一組件處理。將數(shù)據(jù)通過字段歸并處理之后,按照數(shù)據(jù)源進(jìn)行分類處理,并將處理過程中的臨時(shí)字段移除,將數(shù)據(jù)發(fā)送到消息隊(duì)列,進(jìn)行數(shù)據(jù)的下一步數(shù)據(jù)融合處理。數(shù)據(jù)進(jìn)行規(guī)整篩選之后,還會(huì)進(jìn)行文章的智能分析,將文章所涉及的科技領(lǐng)域等相關(guān)屬性數(shù)據(jù)進(jìn)行分析、整合,最后將數(shù)據(jù)的屬性保存。

        數(shù)據(jù)融合分析需要結(jié)合具體應(yīng)用場(chǎng)景采取對(duì)應(yīng)的技術(shù)來處理,本項(xiàng)目主要解決晉中科技平臺(tái)的科技決策和項(xiàng)目查重兩個(gè)方面的數(shù)據(jù)分析??萍紱Q策方面主要將國(guó)內(nèi)、省內(nèi)科技欄目相關(guān)政策數(shù)據(jù)與晉中科技平臺(tái)項(xiàng)目申報(bào)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,分析國(guó)內(nèi)科技最新發(fā)展方向,對(duì)比晉中科技政策指導(dǎo)及科技申報(bào)方向,為晉中科技局領(lǐng)導(dǎo)提供科技申報(bào)方向和重點(diǎn)支持產(chǎn)業(yè)。項(xiàng)目查重方面主要是將晉中科技平臺(tái)歷年立項(xiàng)全文數(shù)據(jù)、國(guó)內(nèi)和省內(nèi)先進(jìn)科研課題放入科技查重庫(kù),實(shí)現(xiàn)項(xiàng)目申報(bào)內(nèi)容與查重庫(kù)內(nèi)數(shù)據(jù)進(jìn)行相似度分析,確定兩個(gè)文檔相似度值,為項(xiàng)目查重提供技術(shù)支持。

        3 多源異構(gòu)數(shù)據(jù)融合技術(shù)的應(yīng)用

        3.1 實(shí)現(xiàn)科技決策

        傳統(tǒng)的科技申報(bào)系統(tǒng)都是面向以事務(wù)處理為主的應(yīng)用,數(shù)據(jù)來源廣泛,數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)形式不一,且來源眾多,主要以處理細(xì)節(jié)性數(shù)據(jù)為主,對(duì)綜合性、歷史性、概括性數(shù)據(jù)的分析處理不能很好實(shí)現(xiàn),而且科技工作人員之間,各地區(qū)、各廳局之間各自的科研研究缺乏交流合作和數(shù)據(jù)共享,導(dǎo)致地市科技系統(tǒng)有國(guó)家政策把握不準(zhǔn)、決策分析不到位現(xiàn)象,政策把握不確定等問題。

        要實(shí)現(xiàn)科技決策,首先要對(duì)晉中科技平臺(tái)、網(wǎng)頁爬蟲數(shù)據(jù)進(jìn)行分詞處理,并對(duì)分析進(jìn)行優(yōu)化,識(shí)別文檔中的關(guān)鍵詞,最后實(shí)現(xiàn)關(guān)鍵詞的對(duì)比分析。

        分詞是文本處理中一個(gè)艱巨且重要的工作,本項(xiàng)目采用jieba實(shí)現(xiàn)文檔分詞處理。

        同義詞合并過程:首先將文檔中高頻詞進(jìn)行統(tǒng)計(jì),然后對(duì)高頻詞中的同義詞進(jìn)行篩選,形成同義詞庫(kù),然后在分詞過程中將同義詞合并。

        自定義字典:目的是為了分出原始詞庫(kù)中沒有的詞以及優(yōu)先分出一些詞,我們一方面通過項(xiàng)目系統(tǒng)中抽取科技相關(guān)詞匯加入自定義字典,另一方面主動(dòng)從科技相關(guān)政策搜集科技詞匯加入,并定期從爬蟲結(jié)果中搜集科技高頻詞加入。

        關(guān)鍵詞抽?。宏P(guān)鍵詞就是一片文檔中的核心詞和中心詞,能讓讀者一目了然文檔要介紹的內(nèi)容。本項(xiàng)目的關(guān)鍵詞抽取算法采用TF-IDF,該算法簡(jiǎn)單、常用、準(zhǔn)確率高。

        從實(shí)際效果看,通過一系列對(duì)數(shù)據(jù)的清洗和處理,在識(shí)別國(guó)家科技發(fā)展方向的基礎(chǔ)上,與晉中科技項(xiàng)目申報(bào)方向和申報(bào)內(nèi)容進(jìn)行對(duì)比,為制定新一年度項(xiàng)目申報(bào)指南形成決策支持。

        3.2 實(shí)現(xiàn)項(xiàng)目查重功能

        通過多源異構(gòu)數(shù)據(jù)融合技術(shù)實(shí)現(xiàn)基于項(xiàng)目全文、網(wǎng)絡(luò)爬蟲數(shù)據(jù)的非結(jié)構(gòu)化查重分析,更精確、更科學(xué)地對(duì)申報(bào)項(xiàng)目作出客觀評(píng)價(jià)。

        晉中科技計(jì)劃管理平臺(tái)在加入多源異構(gòu)數(shù)據(jù)融合技術(shù)后實(shí)現(xiàn)了業(yè)務(wù)管理與決策支持的融合應(yīng)用,業(yè)務(wù)上實(shí)現(xiàn)文檔查重規(guī)則可自定義;實(shí)現(xiàn)對(duì)項(xiàng)目負(fù)責(zé)人、參與人的信息查重功能;實(shí)現(xiàn)創(chuàng)新點(diǎn)及申報(bào)書的全文查重;生成項(xiàng)目查重結(jié)果表及項(xiàng)目查重結(jié)果匯總表,最終形成決策有依據(jù),辦事有程序,權(quán)力受監(jiān)督的項(xiàng)目管理體系。

        項(xiàng)目查重模塊采用我們研發(fā)的文檔相似性檢索技術(shù)實(shí)現(xiàn)申報(bào)項(xiàng)目全文和項(xiàng)目查重庫(kù)中全文進(jìn)行比對(duì),算出具體的相似度值,晉中科技局根據(jù)相似度值的大小結(jié)合文檔的具體情況對(duì)項(xiàng)目是否重復(fù)進(jìn)行判斷。

        相似性檢索的具體步驟如下:

        1)用TF-IDF算法,自動(dòng)篩選出每個(gè)文檔的關(guān)鍵詞。

        2)每篇文章各取出若干個(gè)關(guān)鍵詞,在晉中平臺(tái)項(xiàng)目中我們針對(duì)每個(gè)文檔取出15個(gè),將歷史立項(xiàng)項(xiàng)目庫(kù)、網(wǎng)頁爬蟲庫(kù)、當(dāng)年項(xiàng)目申報(bào)庫(kù)自動(dòng)生成關(guān)鍵詞,合并成一個(gè)集合,形成了查重庫(kù)關(guān)鍵詞集合。計(jì)算當(dāng)年項(xiàng)目申報(bào)庫(kù)中對(duì)于查重庫(kù)關(guān)鍵詞集合中的詞的詞頻,為了避免文檔長(zhǎng)度的差異,我們使用相對(duì)詞頻。

        3)自動(dòng)生成所有文檔各自的詞頻向量。

        詞頻向量的生成是根據(jù)1)和2)步驟中生成的關(guān)鍵詞,計(jì)算每個(gè)文檔的詞頻,采用N-gram生成文檔的詞頻向量,通過訓(xùn)練,發(fā)現(xiàn)4-gram時(shí)在目前的體系下生成的效果最好。

        4)項(xiàng)目查重過程中,計(jì)算比對(duì)兩個(gè)向量的余弦相似度,值越大就表示越相似,值就是兩個(gè)文檔的相似度值。

        項(xiàng)目查重功能支持從原始備份庫(kù)以及交叉數(shù)據(jù)的導(dǎo)入,實(shí)現(xiàn)項(xiàng)目申報(bào)及項(xiàng)目立項(xiàng)的兩個(gè)環(huán)節(jié)查重功能。系統(tǒng)針對(duì)所有申報(bào)書的查重規(guī)則,建立查重規(guī)則庫(kù)。當(dāng)本年度查重需要遵循某條或某幾條規(guī)則時(shí),只需要規(guī)則庫(kù)管理員對(duì)所采用的規(guī)則進(jìn)行選擇,選擇成功后,系統(tǒng)將采用規(guī)則庫(kù)管理員所點(diǎn)選的規(guī)則進(jìn)行查重。同時(shí),規(guī)則庫(kù)可根據(jù)每年查重的具體規(guī)則進(jìn)行增加或修改,靈活設(shè)置查重規(guī)則。系統(tǒng)根據(jù)查重的條件把查重的結(jié)果信息返回給工作人員,根據(jù)查重結(jié)果信息判斷是否進(jìn)入下一流程,如果該項(xiàng)目不通過時(shí),把不通過的具體原因返回給用戶(如近三年在項(xiàng)目未結(jié)題等)。實(shí)現(xiàn)了科技報(bào)告數(shù)據(jù)、相關(guān)文獻(xiàn)、資料、論文等數(shù)據(jù)接入的接口,實(shí)現(xiàn)了與省級(jí)系統(tǒng)對(duì)接,進(jìn)行聯(lián)合查重。

        4 結(jié)語

        本文通過對(duì)多源異構(gòu)數(shù)據(jù)融合技術(shù)的研究,將其典型應(yīng)用于晉中市科技計(jì)劃管理信息平臺(tái),實(shí)現(xiàn)對(duì)關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)、上傳的PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、網(wǎng)頁爬蟲數(shù)據(jù)等進(jìn)行融合分析,將科技項(xiàng)目主體與PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、網(wǎng)頁爬蟲數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合匯聚,消除數(shù)據(jù)之間的不精確、不一致,提高數(shù)據(jù)可靠性,從多維度、全方位為決策提供支持;運(yùn)用到項(xiàng)目查重模塊,實(shí)現(xiàn)項(xiàng)目在進(jìn)行查重時(shí),從原有基于項(xiàng)目名稱、項(xiàng)目負(fù)責(zé)人等結(jié)構(gòu)化查重的基礎(chǔ)上,增加了基于項(xiàng)目全文、網(wǎng)絡(luò)爬蟲數(shù)據(jù)的非結(jié)構(gòu)化查重分析,更精確、更科學(xué)地對(duì)申報(bào)項(xiàng)目作出客觀評(píng)價(jià)。晉中科技計(jì)劃管理平臺(tái)在加入多源異構(gòu)數(shù)據(jù)融合技術(shù)后實(shí)現(xiàn)了業(yè)務(wù)管理與決策支持的融合應(yīng)用,形成決策有依據(jù),辦事有程序,權(quán)力受監(jiān)督的項(xiàng)目管理體系。

        猜你喜歡
        晉中科技融合
        晉中國(guó)家農(nóng)高區(qū)無花果采摘正當(dāng)時(shí)
        村企黨建聯(lián)建融合共贏
        晉中市委統(tǒng)戰(zhàn)部調(diào)研晉中國(guó)家農(nóng)高區(qū)(山西農(nóng)谷)
        融合菜
        加快培育百億企業(yè) 建好晉中國(guó)家農(nóng)高區(qū)
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        晉中:率先出臺(tái)提升鄉(xiāng)村治理能力“25條”
        科技助我來看云
        科技在線
        色噜噜狠狠狠综合曰曰曰| 国产成人精品一区二区三区免费| 国产主播一区二区三区在线观看| 久久亚洲第一视频黄色| 亚洲一区二区三区国产精品视频| 国产成人精品人人做人人爽97 | 亚洲av色香蕉一区二区三区蜜桃| 日韩人妻久久中文字幕| av免费不卡国产观看| 99久久久国产精品免费蜜臀| 国产男女猛烈视频在线观看| 动漫在线无码一区| 亚洲日本无码一区二区在线观看| 亚洲一区域二区域三区域四| 国产白色视频在线观看| 又色又爽又高潮免费视频国产| 免费av片在线观看网站| 一本色道久久综合中文字幕| 久久精品国产亚洲av影院毛片| 日韩av无码中文字幕| 亚洲av无码不卡久久| 国产在线一区二区三区av| 人妻中文字幕在线一二区| 美女内射毛片在线看免费人动物| 全球中文成人在线| 亚洲电影一区二区三区| 青青草好吊色在线视频| 国产亚州精品女人久久久久久| 国产在线精品一区二区| 在线偷窥制服另类| 中文字幕亚洲精品在线| 欧美又大又色又爽aaaa片| 波多野结衣在线播放一区| 在线视频播放观看免费| 强开小婷嫩苞又嫩又紧视频韩国| 欧美mv日韩mv国产网站| 亚洲AV无码成人精品区H| 97超碰国产成人在线| 少妇丰满大乳被男人揉捏视频| 久久亚洲国产成人亚| 91精品国产色综合久久不|