亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

油氣領(lǐng)域科技信息查重技術(shù)研究與應用?

2022-03-18 06:20:28段友祥

計算機與數(shù)字工程 2022年12期

陳澤段友祥

（中國石油大學（華東）計算機科學與技術(shù)學院青島 266580）

1 引言

隨著國家國力的提升和科技力量的穩(wěn)步增強，科技立項數(shù)目迅猛增加，但是隨之而來的重復立項問題也日趨嚴重［1］。重復立項嚴重浪費國家或相關(guān)領(lǐng)域科研資源。為促進科學立項，迫切需要進行重復立項查重。目前已有的科技信息查重檢測手段［2~6］，無法有效研究和分析管道科技項目信息相似的特性指標和要素，需要探索契合管道科技領(lǐng)域特性的查重方法，建立基于計算機應用技術(shù)的科技信息查重檢測系統(tǒng)。現(xiàn)有查重方法如向量空間模型（VSM）［7］或SimHash［8~9］，由于詞匯間的相互獨立，僅視為基于字符的相似度評價方法，而基于知網(wǎng)［10］、同義詞詞林［11］或詞向量［12］方法可涉及到詞匯語義層面。

為更好適應面向領(lǐng)域的科技信息管理中的相似度計算問題，本文提出了下面的技術(shù)研究路線。1）構(gòu)建領(lǐng)域同義詞詞林。鑒于領(lǐng)域科技文本的專業(yè)性，專業(yè)詞匯詞組的相似度衡量是首要解決的難題。特別是在領(lǐng)域限制的情況下，有限的專業(yè)詞組數(shù)目以及專業(yè)詞組的穩(wěn)固性，使得創(chuàng)建成為可能。2）利用知網(wǎng)與同義詞詞林結(jié)合［13~14］進行非領(lǐng)域詞匯粒度語義相似度計算。3）探索基于句法依存信息的詞匯相似度融合方法。分析獲取句子依存結(jié)構(gòu)信息，并利用依存路徑刻畫句子語義，基于路徑結(jié)構(gòu)進行詞匯相似度融合，彌補文本相似度計算中未能考慮結(jié)構(gòu)信息的不足。

2 相關(guān)技術(shù)簡介

2.1 依存句法結(jié)構(gòu)

在依存句法理論［15］中，“依存”指詞與詞之間支配與被支配的關(guān)系，這種關(guān)系不是對等的，而是有方向的，處于支配地位的成分稱為支配者，而處于被支配地位的成分稱為從屬者。依存句法結(jié)構(gòu)建立起由支配詞和從屬詞通過依存信息聯(lián)結(jié)而成的從屬關(guān)系。句子依存信息是多組形如“支配者-關(guān)系類型-從屬者”的三元組。根據(jù)依存信息可生成依存關(guān)系圖G=(N,E)，其中頂點集合為N，邊集合是E。滿足：?e?E,?ni,nj?N(i≠j)，使得e=(ni,nj)。

本文使用哈工大LTP分析模塊進行句子分詞、詞性標注、句法分析等操作，獲得句子的依存結(jié)構(gòu)信息。

2.2 同義詞詞林

《同義詞詞林》是梅家駒等［16］于1983 年編纂而成。同義詞詞林是以樹狀形式將所有詞語編織在一起，將所有詞語分為大類、中類和小類。為了更細化各個詞語之間的語義關(guān)系，將小類又細分為詞群和原子詞群。于是，同義詞詞林可表示為5 層樹狀結(jié)構(gòu)，結(jié)構(gòu)如圖1所示。

圖1 同義詞詞林5層樹狀結(jié)構(gòu)

2.3 知網(wǎng)（HowNet）

知網(wǎng)是1988 年由董振東先生［18~19］建設(shè)的一個漢語常識庫［20］。參考文獻［10］在僅考慮義原上下位關(guān)系的前提下，把兩個義原節(jié)點路徑長度作為義原相似度判定的標準，并經(jīng)過簡單關(guān)系變換，具體計算如式（1）：

其中，pi和pj表示兩個義原，dis(pi,pj)是pi和pj在義原層次體系中的路徑長度。α是一個可調(diào)節(jié)的參數(shù)，本文設(shè)置為1。

而義項是由義原通過四類描述構(gòu)成，所以兩個義項si,sj的相似度由四描述的相似度sim1,sim2,sim3,sim4按式（2）計算：

其中：βi(1 ≤i≤4 )為各部分權(quán)重，且有β1+β2+β3+β4=1,β1>β2>β3>β4，本文設(shè) 置為β1=0.6,β2=0.2,β3=0.1,β4=0.1。

sim1(si,sj)是語義表達式中第一義原相似度；

sim2(si,sj)是義原集合間相似度，通過基于二分圖最大權(quán)匹配算法求得加和均值；

sim3(si,sj)是對多對“屬性-值”集合的相似度。一般在屬性一致的前提下才能進行屬性值相似度判定。

sim4(si,sj) 多對“屬性-值”的特征集合，特征的屬性是一個關(guān)系義原，特征的值是一個集合，該集合的元素是一個基本義原，或一個具體詞。

對于兩個非領(lǐng)域詞匯wi,wj計算相似度，假設(shè)wi,wj所具有的義項數(shù)目分別為n,m，最終wi,wj的相似度是各個義項的相似度之最大值，計算如式（3）：

3 結(jié)合依存信息與詞匯相似度的科技信息查重計算

3.1 構(gòu)建領(lǐng)域同義詞林

領(lǐng)域詞林構(gòu)建的核心思想與通用詞林［16］的構(gòu)建一樣。面向《中華人民共和國石油天然氣行業(yè)標準_Y5510_92 油田化學常用術(shù)語》、《油氣田及管道腐蝕與防護工程基本詞匯》等直接抽取本領(lǐng)域常用的一級專業(yè)詞匯詞組，將一級專業(yè)詞匯詞組導入文本，利用詞語共現(xiàn)關(guān)系進行二級詞匯摘取。通過篩選與判斷，共摘取859 個領(lǐng)域詞匯詞組，作為構(gòu)建領(lǐng)域同義詞林的重要來源。對以上摘取的八百余項詞匯詞組進行分類，共分三大類一百一十多小類（長期維護變化，細分小類增加，深度加深）。大類分為實體類、操作類、特性類，每個大類節(jié)點下，小類數(shù)目各異，做到領(lǐng)域詞匯詞組分類的正確與細化。

3.2 詞匯語義相似度計算

假設(shè)要計算比較的詞對是w§,wj，它們的語義相似度記作sim(wi,wj)。

1）若w§,wj均屬于領(lǐng)域?qū)I(yè)詞匯。需依據(jù)領(lǐng)域詞林樹進行相似度計算。按文獻［17］提出的方法計算詞匯語義相似度，首先計算w§,wj路徑長度d以及最近公共父節(jié)點深度h。然后基于d,h，按式（4）計算詞匯語義相似度。

規(guī) 定若d=0 ，則sim(wi,wj)=1 ；若h=1,sim(wi,wj)=0。

2）若w§,wj一個屬于領(lǐng)域?qū)I(yè)詞匯，另一個不屬于，則sim(wi,wj)=0；

3）若w§,wj均不屬于領(lǐng)域?qū)I(yè)詞匯，依據(jù)文獻［13］所提出的融合規(guī)則進行相似度計算。具體如下。

若w§,wj均屬于知網(wǎng)、詞林共有，則基于詞林計算相似度，即按式（4）計算得到s1，基于知網(wǎng)義原計算相似度，即按式（3）計算算得到s2，取sim(wi,wj)=0.5s1+0.5s2；

若w§,wj均屬于知網(wǎng)不屬于詞林，則基于知網(wǎng)義原計算相似度，即按式（3）計算得到sim(wi,wj)，或w§,wj均屬于詞林不屬于知網(wǎng)，則基于詞林計算相似度，即按式（4）計算得到sim(wi,wj)；

若w§屬詞林而wj屬知網(wǎng)，在詞林中尋找wi同義詞集合{wi1,wi2,…,wik} ，依次與wj基于知網(wǎng)義原按式（4）計算相似度sim(wil,wj) ，取

3.3 依存路徑的相似度計算

依存圖中有且僅有一個節(jié)點與ROOT 直接相連，它是整個句子的核心動詞。依存路徑P定義為從句子核心動詞開始，到所有葉子節(jié)點之間所經(jīng)過的一系列節(jié)點n?N與邊e?E組成的集合。路徑相似度對比，需考慮兩個方面：詞匯相似度與依存關(guān)系權(quán)重。

詞匯相似度計算采用3.2節(jié)提出的方法。句子結(jié)構(gòu)復雜，依存關(guān)系權(quán)重采用文獻［21］中的研究結(jié)果對依存關(guān)系進行賦權(quán)值。依存關(guān)系權(quán)重值如表1。

表1 依存關(guān)系權(quán)重值表

定義路徑pi,pj的相似度SIM(pi,pj)計算公式如式（5）：

3.4 文本粒度的相似度計算

文本di的依存路徑集合，文本dj的依存路徑集合。利用3.3節(jié)依存路徑相似度計算方法，計算可得兩份文本依存路徑集合相似度結(jié)果矩陣Mn×m。

定義文本di、dj相似度計算公式如式（6）：

4 實驗與分析

4.1 詞匯語義相似度分析實驗

1）數(shù)據(jù)集

目前評測詞語相似度算法優(yōu)劣標準普遍采用MC30詞對集［22］。該詞對集讓多位受試者面向多組詞對進行人工評測，取評測均值作為最終相似度結(jié)果。MC30 詞對集由10 組高相似性、10 組中相似性、10 組低相似性總計30 組詞對構(gòu)成。本文隨機抽取詞對集中10 組詞對，并加入10 組領(lǐng)域?qū)I(yè)詞對進行多種方法的詞匯相似度對比實驗。

2）對比實驗結(jié)果

分別采用基于知網(wǎng)、詞林、本文方法對1）得到的20組詞進行相似度計算實驗，實驗結(jié)果如表2。

表2 詞匯語義相似度計算實驗結(jié)果

本文方法、知網(wǎng)、詞林實驗結(jié)果與人工評測結(jié)果的皮爾遜系數(shù)如表3。

表3 多方法皮爾遜系數(shù)

4.2 文本語義相似度實驗

1）數(shù)據(jù)集

文本實驗數(shù)據(jù)集分為通用文本數(shù)據(jù)集與油氣領(lǐng)域科技項目書，其中通用文本數(shù)據(jù)集為西安科技大學中文語義相似度測試集［23］。通用文本數(shù)據(jù)集采用文本對排列方式，共計12747 對。每對文本均已人工標注相似度，相似度值范圍［0~5］，0 代表語義不相干，5 代表語義完全一致。本文隨機選取100 份油氣領(lǐng)域科技項目書作為實驗數(shù)據(jù)，進行基于本文方法的科技信息文本粒度相似度計算實驗。本文將在以上兩類文本集進行多方法實驗對比，驗證本文方法的可行性，基于正確率作為評價指標，進行最終實驗效果比較。

2）對比實驗

本文引入正確率作為文本粒度相似度測評標準，具體如式（7）：

其中sim(di,dj)是文本di與文本dj之間相似度，結(jié)果范圍在0~1 之間，放大5 倍與［0~5］的相似度標簽進行對比。由于相似度標簽為離散數(shù)值，規(guī)定計算結(jié)果與標簽之間差值的絕對值不超過1 則視為結(jié)果可信。統(tǒng)計所有可信結(jié)果的數(shù)目，與通用文本數(shù)據(jù)集總記錄數(shù)N（12747）的比值，即為最終正確率。在1）得到數(shù)據(jù)集上，進行了多組相似度計算比較實驗，實驗結(jié)果如表4。

表4 文本語義相似度實驗結(jié)果

4.3 實驗結(jié)果分析

從詞匯語義相似度實驗結(jié)果表2、表3可看出，本文方法的詞匯語義計算效果最好，在加入領(lǐng)域詞林后，能很大程度上解決專業(yè)詞組相似度計算正確率低的問題。本文方法的皮爾遜系數(shù)最高，可達0.89，達到實用水平。而基于知網(wǎng)或詞林的語義相似度計算方法雖能在通用領(lǐng)域詞匯語義計算上取得不錯效果，卻在專業(yè)詞組語義相似度計算上存在巨大不足。

從文本粒度語義相似度計算實驗結(jié)果表4 可知，本文提出的依存路徑詞語相似度融合方法在通用文本數(shù)據(jù)集上具有較高準確率。對比傳統(tǒng)文本相似度計算方法，特別是在領(lǐng)域限定情況下，本文方法具有明顯優(yōu)勢，證明本文方法有效可行。

由于本文方法構(gòu)建領(lǐng)域詞林，在科技信息數(shù)據(jù)集上實驗結(jié)果最高且大幅度領(lǐng)先其他方法，最終結(jié)果為71%左右準確率，具備領(lǐng)域?qū)Ｓ锰匦?，本文能在一定程度上滿足企業(yè)科技信息查重應用需求。

5 結(jié)語

科技信息查重是科技信息管理中的重要內(nèi)容，對于發(fā)揮投入經(jīng)費效益，維護良好的學術(shù)風氣等具有現(xiàn)實意義。但是由于專業(yè)領(lǐng)域的差異性很大，通用的查重算法還存在一些不足，為此，本文提出了詞匯語義相似度與依存路徑的融合的技術(shù)路線，并且搭建領(lǐng)域同義詞詞林，解決了領(lǐng)域詞匯詞組的相似度計算問題，提高了計算結(jié)果的可信度。實驗結(jié)果表明，本文提出的方法有效、可行，并將該方法應用到企業(yè)科技信息管理查重平臺的開發(fā)中，達到了預期目標。