亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多源異構數(shù)據(jù)融合技術的研究*

        2022-06-24 03:04:16王彥婕
        山西電子技術 2022年3期
        關鍵詞:查重晉中爬蟲

        王彥婕

        (山西省信息產業(yè)技術研究院有限公司,山西 太原 030012)

        1 緒論

        數(shù)據(jù)引領未來,在大數(shù)據(jù)時代,單一來源數(shù)據(jù)無法滿足日益發(fā)展的多元化信息系統(tǒng)需求??筛兄獢?shù)據(jù)雖然具備多源性,但其信息不完整、鏈路不清晰,存在交叉多義、缺乏信任;當前數(shù)據(jù)驅動的社會治理范式中,廣泛存在一源多用"偽Big Data",典型表現(xiàn)是各類項目重復申報、多頭申報;政府決策對數(shù)據(jù)多源采集、融合應用提出了要求。這一系列問題促使多源數(shù)據(jù)融合成為時代發(fā)展的必然要求。

        本文通過對多源異構數(shù)據(jù)融合技術的研究,將其典型應用于晉中市科技計劃管理信息平臺,實現(xiàn)對關系型數(shù)據(jù)庫中數(shù)據(jù)、上傳的PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、網頁爬蟲數(shù)據(jù)等進行融合分析,將科技項目主體與PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、網頁爬蟲數(shù)據(jù)等非結構化數(shù)據(jù)進行融合匯聚,消除數(shù)據(jù)之間的不精確、不一致,提高數(shù)據(jù)可靠性,從多維度、全方位為決策提供支持;運用到項目查重模塊,實現(xiàn)項目在進行查重時,從原有基于項目名稱、項目負責人等結構化查重的基礎上,增加了基于項目全文、網絡爬蟲數(shù)據(jù)的非結構化查重分析,更精確、更科學對申報項目作出客觀評價。晉中科技計劃管理平臺在加入多源異構數(shù)據(jù)融合技術后實現(xiàn)了業(yè)務管理與決策支持的融合應用,形成決策有依據(jù),辦事有程序,權力受監(jiān)督的項目管理體系。

        2 多源異構數(shù)據(jù)融合技術的研究

        多源異構數(shù)據(jù)融合技術涉及數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)融合分析三個階段,針對每個階段我們首先進行了通用技術研發(fā),然后結合晉中科技平臺的應用場景,在通用技術的基礎上進行了專項開發(fā)、調優(yōu)處理,滿足具體的應用需求。

        2.1 數(shù)據(jù)采集

        多源數(shù)據(jù)來源是結構化數(shù)據(jù)(關系型數(shù)據(jù)庫)、非結構化數(shù)據(jù)(文件數(shù)據(jù)、文本數(shù)據(jù)、圖片數(shù)據(jù)等)和網絡爬蟲技術獲取的數(shù)據(jù),結構化數(shù)據(jù)和非結構化數(shù)據(jù)來源項目本身和通過與相關系統(tǒng)對接獲取,網絡爬蟲數(shù)據(jù)是從互聯(lián)網上獲取數(shù)據(jù)。本項目采用爬蟲系統(tǒng)制定一定規(guī)則進行多源數(shù)據(jù)的爬取。爬蟲系統(tǒng)實現(xiàn)數(shù)據(jù)處理方案的設計與編輯,完成數(shù)據(jù)獲取、處理算法、處理環(huán)節(jié)、結果分發(fā)或存儲等全過程的配置方案,明確處理規(guī)模、處理速度、優(yōu)先級等方面的指標要求,實現(xiàn)對政府網站、新聞網站等網絡爬蟲站點數(shù)據(jù)的深度爬取,完成網頁展現(xiàn)數(shù)據(jù)屬性的全維度探測。

        網頁爬取結果需要進行去重處理,考慮爬取網頁數(shù)量非常龐大,對網頁去重進行優(yōu)化處理。

        在晉中科技平臺中,數(shù)據(jù)來源包括本地數(shù)據(jù)、與相關系統(tǒng)對接數(shù)據(jù)、爬蟲數(shù)據(jù)三類。本地數(shù)據(jù)包括項目申報數(shù)據(jù)、上傳的PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)。與相關系統(tǒng)對接數(shù)據(jù)包括與省科技廳、市數(shù)據(jù)共享交換平臺獲取的數(shù)據(jù)。爬蟲數(shù)據(jù)是通過爬蟲系統(tǒng)定時爬取科技部網站、中央人民政府網站科技專題、新華網科技目錄、各省科技廳網站等網頁數(shù)據(jù),爬取內容包括網站發(fā)布原有分類下的各級標題、發(fā)布時間、正文內容、url及相關附件等信息,并對爬取的網頁信息進行去重、分類整理入庫。

        2.2 數(shù)據(jù)清洗

        將多源數(shù)據(jù)采集完成后,需要完成數(shù)據(jù)的清洗工作。多源數(shù)據(jù)的數(shù)據(jù)結構比較復雜(或是json或是自定義的嵌套結構),不利于數(shù)據(jù)分析,需要從這些數(shù)據(jù)中將用戶關注的字段單獨抽取出來,構建成一個通用的簡單的業(yè)務模型,一方面簡化數(shù)據(jù)結構、減少數(shù)據(jù)量,另一方面為數(shù)據(jù)分析提供通用的簡單的數(shù)據(jù)模式。

        數(shù)據(jù)清洗需要遵循以下要求:

        1)數(shù)據(jù)一致性:按照規(guī)則進行命名,生成音視頻、圖像的id字段,作為數(shù)據(jù)管理的唯一標識,插入到信息表中。按照不同類型數(shù)據(jù)格式要求,將音頻、視頻、文本、圖像轉換成指定的格式,并按照目錄規(guī)范,將數(shù)據(jù)放入目錄中。

        2)缺失數(shù)據(jù)處理:當某條信息中缺失了對應的音視頻,去除Fields.json(或Fields.csv)中的該條記錄。當音頻或視頻等內容文件缺失Fields.json(或Fields.csv)中對應記錄時,應補全記錄或者刪除該內容文件。

        3)重復數(shù)據(jù)處理:去除內容重復的音頻、視頻、文本和圖像數(shù)據(jù)項。

        4)內容文件異常處理:對于音頻文件,需要截斷音頻收尾靜音部分;對于圖像、視頻、文本,需要去除或修復異常、錯誤文件。

        數(shù)據(jù)處理過程中要對任務過程監(jiān)視,處理計算任務調度,處理過程如圖1所示。

        圖1 數(shù)據(jù)清洗過程圖

        2.3 數(shù)據(jù)融合分析

        晉中市科技平臺在使用數(shù)據(jù)清洗功能組件后,可以實時、批量、高速處理多種數(shù)據(jù)源的非結構化數(shù)據(jù),極大地提升了系統(tǒng)的數(shù)據(jù)處理、分析能力。

        平臺數(shù)據(jù)清洗和監(jiān)控過程:數(shù)據(jù)源直接連接到爬蟲數(shù)據(jù)庫,將數(shù)據(jù)查詢出來之后,管道開始進行批量處理,經JSON轉換之后,將多余字段移除,按照清洗規(guī)則,將符合條件的數(shù)據(jù)篩選交給下一組件處理。將數(shù)據(jù)通過字段歸并處理之后,按照數(shù)據(jù)源進行分類處理,并將處理過程中的臨時字段移除,將數(shù)據(jù)發(fā)送到消息隊列,進行數(shù)據(jù)的下一步數(shù)據(jù)融合處理。數(shù)據(jù)進行規(guī)整篩選之后,還會進行文章的智能分析,將文章所涉及的科技領域等相關屬性數(shù)據(jù)進行分析、整合,最后將數(shù)據(jù)的屬性保存。

        數(shù)據(jù)融合分析需要結合具體應用場景采取對應的技術來處理,本項目主要解決晉中科技平臺的科技決策和項目查重兩個方面的數(shù)據(jù)分析??萍紱Q策方面主要將國內、省內科技欄目相關政策數(shù)據(jù)與晉中科技平臺項目申報數(shù)據(jù)進行關聯(lián)分析,分析國內科技最新發(fā)展方向,對比晉中科技政策指導及科技申報方向,為晉中科技局領導提供科技申報方向和重點支持產業(yè)。項目查重方面主要是將晉中科技平臺歷年立項全文數(shù)據(jù)、國內和省內先進科研課題放入科技查重庫,實現(xiàn)項目申報內容與查重庫內數(shù)據(jù)進行相似度分析,確定兩個文檔相似度值,為項目查重提供技術支持。

        3 多源異構數(shù)據(jù)融合技術的應用

        3.1 實現(xiàn)科技決策

        傳統(tǒng)的科技申報系統(tǒng)都是面向以事務處理為主的應用,數(shù)據(jù)來源廣泛,數(shù)據(jù)庫中存儲的數(shù)據(jù)形式不一,且來源眾多,主要以處理細節(jié)性數(shù)據(jù)為主,對綜合性、歷史性、概括性數(shù)據(jù)的分析處理不能很好實現(xiàn),而且科技工作人員之間,各地區(qū)、各廳局之間各自的科研研究缺乏交流合作和數(shù)據(jù)共享,導致地市科技系統(tǒng)有國家政策把握不準、決策分析不到位現(xiàn)象,政策把握不確定等問題。

        要實現(xiàn)科技決策,首先要對晉中科技平臺、網頁爬蟲數(shù)據(jù)進行分詞處理,并對分析進行優(yōu)化,識別文檔中的關鍵詞,最后實現(xiàn)關鍵詞的對比分析。

        分詞是文本處理中一個艱巨且重要的工作,本項目采用jieba實現(xiàn)文檔分詞處理。

        同義詞合并過程:首先將文檔中高頻詞進行統(tǒng)計,然后對高頻詞中的同義詞進行篩選,形成同義詞庫,然后在分詞過程中將同義詞合并。

        自定義字典:目的是為了分出原始詞庫中沒有的詞以及優(yōu)先分出一些詞,我們一方面通過項目系統(tǒng)中抽取科技相關詞匯加入自定義字典,另一方面主動從科技相關政策搜集科技詞匯加入,并定期從爬蟲結果中搜集科技高頻詞加入。

        關鍵詞抽?。宏P鍵詞就是一片文檔中的核心詞和中心詞,能讓讀者一目了然文檔要介紹的內容。本項目的關鍵詞抽取算法采用TF-IDF,該算法簡單、常用、準確率高。

        從實際效果看,通過一系列對數(shù)據(jù)的清洗和處理,在識別國家科技發(fā)展方向的基礎上,與晉中科技項目申報方向和申報內容進行對比,為制定新一年度項目申報指南形成決策支持。

        3.2 實現(xiàn)項目查重功能

        通過多源異構數(shù)據(jù)融合技術實現(xiàn)基于項目全文、網絡爬蟲數(shù)據(jù)的非結構化查重分析,更精確、更科學地對申報項目作出客觀評價。

        晉中科技計劃管理平臺在加入多源異構數(shù)據(jù)融合技術后實現(xiàn)了業(yè)務管理與決策支持的融合應用,業(yè)務上實現(xiàn)文檔查重規(guī)則可自定義;實現(xiàn)對項目負責人、參與人的信息查重功能;實現(xiàn)創(chuàng)新點及申報書的全文查重;生成項目查重結果表及項目查重結果匯總表,最終形成決策有依據(jù),辦事有程序,權力受監(jiān)督的項目管理體系。

        項目查重模塊采用我們研發(fā)的文檔相似性檢索技術實現(xiàn)申報項目全文和項目查重庫中全文進行比對,算出具體的相似度值,晉中科技局根據(jù)相似度值的大小結合文檔的具體情況對項目是否重復進行判斷。

        相似性檢索的具體步驟如下:

        1)用TF-IDF算法,自動篩選出每個文檔的關鍵詞。

        2)每篇文章各取出若干個關鍵詞,在晉中平臺項目中我們針對每個文檔取出15個,將歷史立項項目庫、網頁爬蟲庫、當年項目申報庫自動生成關鍵詞,合并成一個集合,形成了查重庫關鍵詞集合。計算當年項目申報庫中對于查重庫關鍵詞集合中的詞的詞頻,為了避免文檔長度的差異,我們使用相對詞頻。

        3)自動生成所有文檔各自的詞頻向量。

        詞頻向量的生成是根據(jù)1)和2)步驟中生成的關鍵詞,計算每個文檔的詞頻,采用N-gram生成文檔的詞頻向量,通過訓練,發(fā)現(xiàn)4-gram時在目前的體系下生成的效果最好。

        4)項目查重過程中,計算比對兩個向量的余弦相似度,值越大就表示越相似,值就是兩個文檔的相似度值。

        項目查重功能支持從原始備份庫以及交叉數(shù)據(jù)的導入,實現(xiàn)項目申報及項目立項的兩個環(huán)節(jié)查重功能。系統(tǒng)針對所有申報書的查重規(guī)則,建立查重規(guī)則庫。當本年度查重需要遵循某條或某幾條規(guī)則時,只需要規(guī)則庫管理員對所采用的規(guī)則進行選擇,選擇成功后,系統(tǒng)將采用規(guī)則庫管理員所點選的規(guī)則進行查重。同時,規(guī)則庫可根據(jù)每年查重的具體規(guī)則進行增加或修改,靈活設置查重規(guī)則。系統(tǒng)根據(jù)查重的條件把查重的結果信息返回給工作人員,根據(jù)查重結果信息判斷是否進入下一流程,如果該項目不通過時,把不通過的具體原因返回給用戶(如近三年在項目未結題等)。實現(xiàn)了科技報告數(shù)據(jù)、相關文獻、資料、論文等數(shù)據(jù)接入的接口,實現(xiàn)了與省級系統(tǒng)對接,進行聯(lián)合查重。

        4 結語

        本文通過對多源異構數(shù)據(jù)融合技術的研究,將其典型應用于晉中市科技計劃管理信息平臺,實現(xiàn)對關系型數(shù)據(jù)庫中數(shù)據(jù)、上傳的PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、網頁爬蟲數(shù)據(jù)等進行融合分析,將科技項目主體與PDF數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、網頁爬蟲數(shù)據(jù)等非結構化數(shù)據(jù)進行融合匯聚,消除數(shù)據(jù)之間的不精確、不一致,提高數(shù)據(jù)可靠性,從多維度、全方位為決策提供支持;運用到項目查重模塊,實現(xiàn)項目在進行查重時,從原有基于項目名稱、項目負責人等結構化查重的基礎上,增加了基于項目全文、網絡爬蟲數(shù)據(jù)的非結構化查重分析,更精確、更科學地對申報項目作出客觀評價。晉中科技計劃管理平臺在加入多源異構數(shù)據(jù)融合技術后實現(xiàn)了業(yè)務管理與決策支持的融合應用,形成決策有依據(jù),辦事有程序,權力受監(jiān)督的項目管理體系。

        猜你喜歡
        查重晉中爬蟲
        利用網絡爬蟲技術驗證房地產灰犀牛之說
        晉中國家農高區(qū)無花果采摘正當時
        晉中市委統(tǒng)戰(zhàn)部調研晉中國家農高區(qū)(山西農谷)
        學位論文查重亂象引關注
        科教新報(2021年18期)2021-06-11 13:25:24
        加快培育百億企業(yè) 建好晉中國家農高區(qū)
        基于Python的網絡爬蟲和反爬蟲技術研究
        論文查重雜談
        晉中:率先出臺提升鄉(xiāng)村治理能力“25條”
        學術論文該“查”什么?
        雜文月刊(2018年20期)2018-11-14 21:28:46
        學術論文該“查”什么?
        国产欧美一区二区精品性色| 亚洲女同系列高清在线观看 | 日本道免费一区二区三区日韩精品| 国产成人精品a视频一区| 国产精品久久久av久久久 | 丰满人妻熟妇乱又伦精品视| 欧美亚洲另类自拍偷在线拍| 极品少妇高潮在线观看| 十四以下岁毛片带血a级| 影视先锋av资源噜噜| 久久久精品2019中文字幕之3| 中文字幕一区二区三区6| 欧美白人战黑吊| 中国丰满熟妇xxxx| 国产主播无套内射一区| 国产在线视频一区二区三区不卡| 人与人性恔配视频免费 | 亚洲欧洲成人a∨在线观看| 久久久久亚洲av无码专区导航| 无码一区二区三区网站| 美女被内射中出在线观看| 国产亚洲精品成人aa片新蒲金 | 久久国产热精品波多野结衣av| 国产精品一区一区三区| 完整版免费av片| 国产精品久久毛片av大全日韩| 日本熟妇hd8ex视频| 国产人妖在线视频网站| 亚洲a∨无码一区二区三区| 极品尤物高潮潮喷在线视频| 国产一区二区三区视频了| 人妻精品视频一区二区三区| 全部孕妇毛片丰满孕妇孕交| 最新国产成人在线网站| 国产女人精品一区二区三区| 女人脱了内裤趴开腿让男躁| 国产v视频| 国产一区二区三区涩涩| 精品香蕉一区二区三区| 八戒网站免费观看视频| 青青手机在线视频观看|