亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多個智能檢索引擎整合策略及其在專利檢索中的應(yīng)用

2020-01-04 15:10:30共同第一作者

科學(xué)技術(shù)創(chuàng)新 2020年1期

劉琦李翔（共同第一作者）

（知識產(chǎn)權(quán)出版社有限責(zé)任公司- 知識挖掘與服務(wù)重點實驗室，北京100081）

對于專利查新檢索來說，其最終的目的便是依照檢索人員給出的查詢返回與此查詢相關(guān)的專利文本集合，并將這個文本集合按照相關(guān)性降序排序后返回給用戶使用。在此過程中,排序這一環(huán)節(jié)對于決定一個搜索引擎的效果來說是至關(guān)重要而又意義重大，它直接能夠影響搜索引擎的效果以及審查員用戶的滿意程度。目前，越來越多的人工智能技術(shù)運用于專利檢索技術(shù)，其形成的智能檢索引擎相對于傳統(tǒng)的全文文本檢索引擎，更能模仿檢索人員的檢索理念，通過對待檢專利的理解，抽取關(guān)鍵信息，并進行語義擴展，從而一定程度上提高了專利文獻的檢準(zhǔn)率和檢全率，然而單一智能引擎的局限性較大，通過研究評測，發(fā)現(xiàn)不同的引擎對于特定的檢索案例會有較好的表現(xiàn)，但是對于另一批案例卻未必如此。每個引擎很難做到覆蓋全面，在所有領(lǐng)域超出其他引擎。因此，本文研究了多個智能引擎整合的策略，使用多引擎結(jié)果的互相補充、確定和重調(diào)序，可以使得結(jié)果更為準(zhǔn)確，整體效果在單一的引擎基礎(chǔ)上穩(wěn)定提升。

多引擎策略整體分為兩個階段：第一階段，是使用多個相對簡單的常用專利檢索模型對用戶query 從索引中快速檢索出Top-k 候選結(jié)果集。常用檢索模型主要有向量空間模型(Vector Space Model)、布爾模型(Boolean Model)、概率檢索模型BM25等，通常Top-k 的候選集選取還結(jié)合離線計算質(zhì)量分高的文檔以排除掉文本相關(guān)但質(zhì)量分太低的文檔；第二階段，則使用計算相對復(fù)雜的機器學(xué)習(xí)排序模型對Top-k 候選結(jié)果集進行精確的重排序，因為Top-K 的候選結(jié)果集數(shù)據(jù)量級一般不會很大，這一步計算可控。多引擎的整合算法，將會是本文的核心，本文中將從結(jié)果合集、排序評估，重調(diào)序策略等方面對多引擎整合算法的構(gòu)建與優(yōu)化過程中的進行說明。

1 多引擎結(jié)果合集

多引擎結(jié)果合集需要有一個前提，即單引擎必須經(jīng)過詳細嚴(yán)格的召回率的評測，由于篇幅問題，評測方法不在這里詳細描述。評測的目的是對引擎有明確的了解，需確認如下信息：

1.1 引擎達到相對最優(yōu)召回率，所需的檢索結(jié)果集合數(shù)量。理論來說，常規(guī)智能搜索引擎，結(jié)果條數(shù)選取越多，則召回率越高，但是當(dāng)結(jié)果條數(shù)突破一定數(shù)量之后，召回率的提升速度將會大幅度放緩。多引擎整合策略中，不可能無限制的從各個引擎選取太多的結(jié)果進行整合。因此需要通過評測，尋找到召回率相對最佳的臨界點，在多引擎整合的時候，使用該臨界點提取結(jié)果集。

1.2 引擎擅長的領(lǐng)域或者檢索方面。不同的引擎有不同的側(cè)重方面。有些引擎可能擅長于生物領(lǐng)域，有些可能擅長于機械領(lǐng)域。有些引擎在跨語言智能檢索方面有優(yōu)勢，有些可能擅長與中文檢索。有些引擎可能在X 類對比文獻的召回方面有優(yōu)勢，有些引擎則擅長尋找Y 類對文獻。因此需要通過評測，定位各個引擎的優(yōu)勢點，為多引擎整合提供依據(jù)。

多引擎結(jié)果合集，也需要對各引擎的輸出進行規(guī)范化約定：a.各引擎輸出自己的前N 個結(jié)果。這里的N，就是在評測中得到的最優(yōu)召回率臨界點。b.每個引擎在自己的結(jié)果提交中，使用專利申請?zhí)栕鳛殛P(guān)聯(lián)標(biāo)識進行結(jié)果提交。c.每個引擎需提交結(jié)果的申請?zhí)枂?，以及結(jié)果集中每件專利的相似度排序以及相似度值（相似度值需是數(shù)字，并且做歸一化處理）;多引擎結(jié)果合集最終選擇各個引擎的結(jié)果集的并集，去重后作為多引擎整合調(diào)序的對象集合。

2 多引擎整合調(diào)序策略

本次實驗中，針對多引擎結(jié)果合集的整合和重新調(diào)序，提出了三種調(diào)序策略，以及一套調(diào)序策略綜合方案。

2.1“主- 副”型多重確定整合策略

該調(diào)序策略的主要思路是，充分利用各個引擎的結(jié)果及排序，使用各結(jié)果集的相關(guān)度排序結(jié)果進行多重確定，將其結(jié)果的相似度數(shù)值進行線性加合，得到多重確定的專利結(jié)果集。首先是“主- 副”引擎的選定，之所以需要進行這個操作，基本原因在于兩點。單引擎評測時，多個引擎的評測水平可能出現(xiàn)較大差異，我們需要定下線性整合時的權(quán)重，權(quán)重需更加偏向于效果最好的引擎，從而保證可以得到在最好的單引擎基礎(chǔ)上的更好的檢索結(jié)果。而不至于讓相對質(zhì)量較差的引擎“拖后腿”?！爸?副”引擎的模式，可以在不同的檢索側(cè)重領(lǐng)域靈活變化，以適應(yīng)各個引擎的優(yōu)勢。在“主- 副”引擎選定的基礎(chǔ)上，可以進行如下的調(diào)序操作：a.主副引擎檢索結(jié)果求并集。假設(shè)并集數(shù)量為M（本課題實驗環(huán)境下，雙引擎結(jié)果并集數(shù)量為總結(jié)果合集的10%左右）;b. 將并集結(jié)果作為新結(jié)果集的前M件專利結(jié)果，使用這M件專利在主引擎中的排序作為最終排序;c. 剩余集合，采用A*主引擎相似度+（b1*副引擎1 相似度+ b2*副引擎2相似度+……+ bn*副引擎n 相似度）的方式，加權(quán)多引擎相似度，并按照加權(quán)相似度進行重新排序（注意，a 要遠大于sumb）;該策略屬于保守型策略，優(yōu)點在于排序計算快（其計算速度相對于智能檢索環(huán)節(jié)幾乎可以忽略不計），提升穩(wěn)定（肯定可以比最好的引擎提升一點）。缺點在于提升不大，可能會丟棄一些副引擎挑選出來的好專利。

2.2“多級文本聚類”整合策略

多級文本聚類策略，完全摒棄了單引擎提供的相似度排序信息，而使用獨立策略進行重新整合調(diào)蓄。它的基本操作如下：

a.對多引擎檢索結(jié)果合集進行特征抽取（可以使用智能檢索環(huán)節(jié)的抽取結(jié)果）;b.將待檢專利加入結(jié)果合集;c.對步驟2 的集合進行多次控制類別數(shù)量的文本聚類，聚類的類別（轉(zhuǎn)下頁）數(shù)量從2 開始，成等差數(shù)列，至結(jié)果集專利數(shù)/5 為止（等差數(shù)列的間隔可以自行選擇，本課題實驗環(huán)境下為10）;d.記錄每一次聚類的結(jié)果。在每一次結(jié)果中，與待檢專利聚為一類的專利記分為1，否則記0。e.多級聚類完畢后，累加每一件專利的積分;f.使用積分進行重新排序（若專利重分，可以使用多引擎相似度線性加成進行細排序）多級聚類策略的優(yōu)點，在于進行了重新的語義抽取和排序，完全不受前一個環(huán)節(jié)檢索結(jié)果的影響。它的智能抽取細化程度可以遠遠超出智能檢索環(huán)節(jié)。例如智能檢索環(huán)節(jié)的語義要素抽取，最多至50 個就會影響檢索策略了，但聚類環(huán)節(jié)可以到數(shù)千個。這樣，語義特征就更加細致，其聚類結(jié)果可能能夠更準(zhǔn)確的表征語義相關(guān)度。該策略的缺點，在于多重聚類的耗時非常的長，有可能大幅度降低智能檢索的效率。

2.3“神經(jīng)網(wǎng)絡(luò)”分類策略

“神經(jīng)網(wǎng)絡(luò)”分類策略是將排序問題轉(zhuǎn)化成為了分類問題，使用一個訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)分類器，對專利進行二元分類（是X類文獻，不是X 類文獻），將其分類結(jié)果，按照分類傾向性進行排序。其基本操作流程是：a.使用審查員歷史審查數(shù)據(jù)中的X 類對比文獻和待檢專利，作為訓(xùn)練數(shù)據(jù)，對一個神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練（本課題使用的為CNN 卷積神經(jīng)網(wǎng)絡(luò)）;b.將待檢專利作為輸入，輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型中，輸出它的分類結(jié)果。c.使用分類結(jié)果進行排序（X 類文獻在前）。

“神經(jīng)網(wǎng)絡(luò)”分類策略的優(yōu)點在于：a.速度快。雖然神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要耗費大量時間，但是一旦訓(xùn)練完成，在實際檢索運算中，計算速度是非?？斓摹.帶有自學(xué)習(xí)能力。神經(jīng)網(wǎng)絡(luò)模型可以通過過往檢索人員的檢索結(jié)果，學(xué)習(xí)訓(xùn)練自己的分類模型。這使得整個系統(tǒng)是在不斷改進提升。c.對歷史數(shù)據(jù)的擬合非常的好。在訓(xùn)練集合足夠大的基礎(chǔ)上，對以前檢索人員檢索結(jié)果的擬合可以達到其他智能引擎不能比擬的程度。但是在本次實驗研究有限時間內(nèi)，神經(jīng)網(wǎng)絡(luò)分類策略的結(jié)果并不好，究其原因在于：a.訓(xùn)練集合嚴(yán)重不足。本研究時間有限，僅使用了數(shù)千篇專利作為訓(xùn)練集，遠遠不夠。但即便是2010 年以后公布的所有帶X 類對比文獻的專利，總量也僅有數(shù)十萬。該數(shù)量對于深度訓(xùn)練是有些不足的。b.分類任務(wù)的描述設(shè)定存在局限性。本次研究之所以將分類任務(wù)設(shè)定為二元分類（是X 類對比文獻，不是X 類對比文獻），是因為X 類文獻相對于非對比文獻，有著較為明確的差異，而且所需訓(xùn)練集少，工作量可以接受。但這個任務(wù)假設(shè)過于簡單，對于專利查詢結(jié)果的各類情況考慮不足，可能導(dǎo)致訓(xùn)練集合永遠無法擬合。

2.4 調(diào)序策略綜合方案

本節(jié)提出了三種整合調(diào)序策略，其實隨著研究的深入，還會有更多的可用調(diào)序策略。每個策略都會有其優(yōu)點和局限性。又會引發(fā)一個“老”問題：我們是在這些策略中選擇一個？還是有辦法綜合評價？從本次實驗研究的結(jié)果來看，顯然還是綜合評價會得到較好的結(jié)果。但由于時間有限，沒能在這個基礎(chǔ)上再進行進一步的研究。不過可以提出一個思路，給后續(xù)的研究者。a.將調(diào)序算法n 得到的排序，進行排序的歸一化處理，某一件專利在調(diào)序算法n 下的排序分值為Xn=（集合總數(shù)- 排名）/集合總數(shù)。b.設(shè)定權(quán)重值A(chǔ)1、A2、……An;c.求Y=A1×X1+ A2×X2+…..+ An×Xn;d.使用Y 值做最終的排序?？梢姡@仍然延續(xù)了多引擎策略的思路，多策略結(jié)果整合。