亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于行業(yè)詞庫預(yù)訓(xùn)練的科技項(xiàng)目查重研究

        2020-10-09 11:13:30焦文魏海燕石英魯萱萱
        科學(xué)與信息化 2020年27期

        焦文 魏海燕 石英 魯萱萱

        摘 要 在企業(yè)和機(jī)構(gòu)內(nèi)部,科技項(xiàng)目查重能夠避免科技資源浪費(fèi)、惡性科研競爭等重復(fù)立項(xiàng)帶來的問題。本文提出基于行業(yè)詞庫預(yù)訓(xùn)練的科研項(xiàng)目查重方法研究,以申報(bào)材料中的關(guān)鍵指標(biāo)為研究對象,對其段落、句子、詞等不同級(jí)別構(gòu)建相似度比較模型,采用Elasticsearch數(shù)據(jù)庫實(shí)現(xiàn)海量數(shù)據(jù)的快速索引。有效提高立項(xiàng)審批過程中工作效率,節(jié)約科研成本。

        關(guān)鍵詞 科技項(xiàng)目查重;相似度計(jì)算;文檔結(jié)構(gòu)化;自然語言處理技術(shù)

        1研究背景

        國務(wù)院發(fā)布的“加快實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略”,全國各級(jí)政府、企業(yè)、機(jī)構(gòu)積極號(hào)召。科技項(xiàng)目的投入的總體趨勢在逐年擴(kuò)大,科技項(xiàng)目的研究領(lǐng)域在逐年優(yōu)化,于是各單位的需求數(shù)量及最終形成的科技項(xiàng)目的數(shù)量逐年在增加。一直以來,科技管理人員采用的是人工提取關(guān)鍵詞或重點(diǎn)研究內(nèi)容比照已研或在研科技項(xiàng)目的歷史資料進(jìn)行科技項(xiàng)目查重的模式。這種查重模式對于科技管理人員的專業(yè)技術(shù)水平要求較高,且存在查詢效率低以及查重遺漏的問題。

        針對科技項(xiàng)目查重,部分企業(yè)和科研人員也進(jìn)行了相應(yīng)的研究,但總體效果不明顯的主要原因在于:

        (1)項(xiàng)目信息公開、共享和整合程度較低[1]。項(xiàng)目相似性判別方法單一[1]。近年來的相似度判別局限于針對立項(xiàng)材料進(jìn)行比較,忽視了立項(xiàng)申報(bào)中關(guān)鍵指標(biāo)之間的聯(lián)系。

        (2)針對特定領(lǐng)域的項(xiàng)目查重難以滿足需求。

        (3)通過文獻(xiàn)調(diào)研發(fā)現(xiàn),國內(nèi)許多學(xué)者對長文本查重有一定的研究。姜雪[2]利用長文本的局部敏感特性使用simhash算法來計(jì)算相似度,李成龍[3]和楊東菊[3]等人采用先分詞再轉(zhuǎn)換為向量空間模型(VSM:Vector Space Model)的方法進(jìn)行計(jì)算,當(dāng)前通用的相似度判別模型為:simhash[2]、TF-IDF[4]等,喬偉濤[5]、初雅莉[6]等在語義編碼上進(jìn)行了相應(yīng)的研究。在實(shí)際應(yīng)用中,能夠很好地對部分科技文檔進(jìn)行篩選和查重,但是在針對逐年細(xì)化的研究領(lǐng)域表現(xiàn)效果不佳。

        針對上述所提及的逐年細(xì)化領(lǐng)域分類的科技文檔查重存在欠擬合等問題,本文以企業(yè)的實(shí)際數(shù)據(jù)作為研究樣本,提出一種基于行業(yè)詞庫預(yù)訓(xùn)練的科技項(xiàng)目查重方法。首先對立項(xiàng)材料進(jìn)行長文本的解析和抽取,抽取立項(xiàng)材料中關(guān)鍵指標(biāo)作為原始數(shù)據(jù),利用雙向LSTM和JIEBA分詞等方法對長文本做預(yù)處理存入Elasticsearch數(shù)據(jù)庫,在特征提取階段采用關(guān)鍵詞提取、摘要分析為輔,利用基于ALBERT的余弦距離算法模型、TD-IDF算法模型、simhash算法模型、編輯距離相似度模型四種無監(jiān)督學(xué)習(xí)算法同時(shí)對相似片段進(jìn)行計(jì)算,針對短文本、長文本進(jìn)行加權(quán)計(jì)算得出相似度??紤]到在實(shí)際立項(xiàng)過程中,立項(xiàng)文檔的研究背景不應(yīng)作為判斷科技項(xiàng)目重復(fù)的主要原因,而是聚焦在研究內(nèi)容、研究方法、成果物的描述上,我們采用人工標(biāo)注為輔的有監(jiān)督的方法對上述的計(jì)算結(jié)果進(jìn)行校準(zhǔn),最后得出相似度結(jié)果。

        2系統(tǒng)流程

        查重平臺(tái)的流程如圖1所示。主要分為文檔解析和抽取、行業(yè)詞庫構(gòu)建、文本特征提取、相似度判別、人工標(biāo)注分類幾個(gè)步驟。

        查重技術(shù)流程圖如圖1所示,梳理歷史科技立項(xiàng)文檔資料,對文檔模板進(jìn)行解析,構(gòu)建行業(yè)領(lǐng)域知識(shí)庫,專業(yè)詞匯和高質(zhì)量文檔查重指標(biāo)項(xiàng)作為知識(shí)抽取的數(shù)據(jù)支撐。對文檔做結(jié)構(gòu)化處理,提取有價(jià)值的查重指標(biāo)關(guān)鍵段落,對其進(jìn)行分詞、去停用詞、特殊符號(hào)處理等預(yù)處理操作,對有價(jià)值的章節(jié)進(jìn)行基于行業(yè)詞庫的關(guān)鍵詞提取、實(shí)體提取、摘要提取、句法分析等語義關(guān)系抽取,通過大規(guī)模的預(yù)訓(xùn)練的深度學(xué)習(xí)模型和基于ALBERT的余弦相似度模型、TD-IDF、simhash、編輯距離,輸出對比文檔的各項(xiàng)分析結(jié)果,同時(shí)引入相似度質(zhì)量評(píng)估,人工對相似要素的分析結(jié)果進(jìn)行標(biāo)注,對每一指標(biāo)項(xiàng)的相似度分析結(jié)果進(jìn)行正確和錯(cuò)誤的標(biāo)注。最后綜合結(jié)構(gòu)化的相似度得分,估算出文檔的綜合相似度,為科技立項(xiàng)文檔相似對比提供參考依據(jù)。

        2.1 數(shù)據(jù)整合和結(jié)構(gòu)化

        在科技項(xiàng)目立項(xiàng)過程中,項(xiàng)目申報(bào)人會(huì)填報(bào)其基本信息、立項(xiàng)申請文檔、立項(xiàng)論證文檔、立項(xiàng)任務(wù)文檔以及最后項(xiàng)目驗(yàn)收文檔這四類文檔?;拘畔ǎ喉?xiàng)目名稱、立項(xiàng)年度、承擔(dān)人及所屬單位。本文整合了15年以來的某企業(yè)立項(xiàng)文檔作為原始數(shù)據(jù),對不同的模板進(jìn)行了結(jié)構(gòu)化梳理,總結(jié)關(guān)鍵指標(biāo)信息:項(xiàng)目名稱、研究目標(biāo)、研究內(nèi)容、技術(shù)指標(biāo)、創(chuàng)新點(diǎn)及成果。通過機(jī)器學(xué)習(xí)和人工標(biāo)注的方式將大量科技項(xiàng)目資料文檔進(jìn)行解析、抽取存入Elasticsearch數(shù)據(jù)庫作為知識(shí)抽取的依據(jù)。

        2.2 行業(yè)詞庫構(gòu)建

        陶善菊[7]在文獻(xiàn)中提出:行業(yè)詞庫就是經(jīng)過規(guī)范化處理的主題詞及其之間的關(guān)系所構(gòu)成的詞典。行業(yè)詞庫通常包括兩個(gè)部分:詞庫和關(guān)系庫,詞庫用于存儲(chǔ)主題詞,關(guān)系庫則用于存儲(chǔ)主題詞間的各種關(guān)系。主題詞可以是行業(yè)的專業(yè)詞匯、技術(shù)名詞、產(chǎn)品名詞、機(jī)構(gòu)名稱、人名等,關(guān)系可以包含同義詞、縮略語、英文簡稱、行業(yè)分類等。行業(yè)詞庫中描述的主題詞之間的語義關(guān)系可以起到知識(shí)關(guān)聯(lián)計(jì)算和相似度計(jì)算的作用。行業(yè)詞庫構(gòu)建步驟具體如下:

        (1)確定行業(yè)邊界。對立項(xiàng)文檔進(jìn)行分類,梳理結(jié)構(gòu)體系,確定行業(yè)邊界和領(lǐng)域劃分。

        (2)構(gòu)建新詞發(fā)現(xiàn)。通過機(jī)器學(xué)習(xí)的詞向量模型和聚類算法發(fā)現(xiàn)行業(yè)領(lǐng)域的專業(yè)詞匯。

        (3)組織專家篩選。組織行業(yè)專家對已發(fā)現(xiàn)行業(yè)詞匯、各維度對應(yīng)的同義詞和排除詞,進(jìn)行校正。

        2.3 查重模型構(gòu)建

        相似度判別模型一般用于文本查重、文本快速索引構(gòu)建,用來計(jì)算文本之間的語義相似程度。相似度判別模型主要是通過機(jī)器學(xué)習(xí)將文本向量化,計(jì)算兩個(gè)向量之間相似度從而得出文本相似程度。本文提出的相似度判別模型主要基于行業(yè)詞庫預(yù)訓(xùn)練的四類無監(jiān)督模型和分類模型共同計(jì)算并輸出結(jié)果。

        (1)TF-IDF模型

        TF-IDF(詞頻-逆向文件頻率)是一種用于信息檢索與文本挖掘的常用加權(quán)統(tǒng)計(jì)方法。理論依據(jù)為以字、詞在文檔出現(xiàn)的頻率來決定其重要性,但同時(shí)隨著它在語料庫中出現(xiàn)的頻率成反比下降。

        国产区高清在线一区二区三区| 欧美野外疯狂做受xxxx高潮| 久久精品岛国av一区二区无码| 国产精品欧美成人片| 国产精品久久婷婷免费观看| 亚洲av无码乱码国产精品久久| 玩两个丰满老熟女| 男人天堂AV在线麻豆| 亚洲1区第2区第3区在线播放| 男人扒开添女人下部免费视频| 曰本女人与公拘交酡免费视频| 国产精品国产三级国产AvkTV| 日韩国产精品一区二区三区| 又嫩又硬又黄又爽的视频| 人人妻人人添人人爽日韩欧美 | 精品粉嫩国产一区二区三区| 精品国产一区二区三区18p| 久久久精品人妻无码专区不卡 | 午夜国产精品视频免费看电影 | 亚洲成a∨人片在无码2023| 韩国一级成a人片在线观看| 加勒比av在线一区二区 | 亚洲美腿丝袜 欧美另类| 久久狠色噜噜狠狠狠狠97| 国产伦奸在线播放免费| 国产黄大片在线观看画质优化| 嫩草影院未满十八岁禁止入内| 久久久精品国产亚洲麻色欲| 亚洲一区二区三区重口另类| 国产成人精品a视频| 久久久精品3d动漫一区二区三区| 久久婷婷色香五月综合激激情| 中国免费看的片| 乱人伦视频中文字幕| 一区在线播放| 自由成熟女性性毛茸茸应用特色| a级毛片100部免费观看| 国产精品大屁股1区二区三区| 自拍情爱视频在线观看| 日本又色又爽又黄又免费网站| 五十路熟妇亲子交尾|