亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lucene的專利信息智能檢索技術(shù)

        2022-02-02 10:13:04潘曉梅王全喜
        關(guān)鍵詞:信息模型

        楊 芳,張 寧,潘曉梅,王全喜

        (1.國家電網(wǎng)有限公司信息通信分公司,北京 100761) (2.保定市大為計(jì)算機(jī)軟件開發(fā)有限公司,河北 保定 071000)

        目前,各級知識產(chǎn)權(quán)局的相關(guān)專利信息展示頁面以及知網(wǎng)、萬方等文獻(xiàn)網(wǎng)站,均對專利信息進(jìn)行了較為全面的公示。十九大以來,我國每年專利受理量均在400萬件左右,如何在浩如煙海的專利信息中檢索到需要的專利信息,成為當(dāng)前信息管理學(xué)中需要解決的技術(shù)問題。黃孝倫等[1]研究了科技查新系統(tǒng)的實(shí)現(xiàn)策略,認(rèn)為Lucene是系統(tǒng)的核心引擎模塊;熊安萍等[2]與李致遠(yuǎn)等[3]分別對Lucene的索引模塊進(jìn)行了系統(tǒng)研究,并提出了優(yōu)化策略。在全文檢索需求下,趙廣[4]、張紹琳等[5]、沙陽陽等[6]和張俊飛[7]分別就各自的全文檢索個案進(jìn)行了算法優(yōu)化研究,并對Lucene在全文檢索的效率和適應(yīng)性、計(jì)劃性方面進(jìn)行了個案研究。在具體應(yīng)用領(lǐng)域,蔣曉玲等[8]進(jìn)行了Lucene在高??萍嘉墨I(xiàn)系統(tǒng)中的應(yīng)用研究,劉怡[9]進(jìn)行了Lucene在電子病歷系統(tǒng)中的應(yīng)用研究,潘寧寧[10]進(jìn)行了Lucene在融媒體多維可視化系統(tǒng)中的應(yīng)用研究。

        然而,單純使用Lucene的封裝功能會造成搜索結(jié)果中的語義、語境理解不一致問題。Lucene提供的根據(jù)分詞詞元權(quán)重對文檔進(jìn)行排列,難以在搜索結(jié)果中得到更豐富的信息,如專利的下載量、相關(guān)或相似專利的數(shù)量、收錄專利信息的網(wǎng)站數(shù)量等。因此,在檢索前對詞元語義進(jìn)行分析,在檢索后對相關(guān)信息充分整合,最終提供更符合檢索需求的檢索結(jié)果,成為當(dāng)前Lucene應(yīng)用研究的重點(diǎn)。

        1 檢索工具包Lucene的應(yīng)用模式

        在爬取信息的基礎(chǔ)上確定檢索關(guān)鍵詞,通過Lucene進(jìn)行檢索,同步抓取信息中的專利下載量、相關(guān)或相似專利的數(shù)量、收錄專利信息的網(wǎng)站數(shù)量等信息,采用加權(quán)因子法對檢索結(jié)果進(jìn)行基于Lucene排序的二次排序,最終得到搜索結(jié)果。Lucene應(yīng)用數(shù)據(jù)流程如圖1所示。

        圖1 Lucene應(yīng)用數(shù)據(jù)流程圖

        Lucene工具包提供了檢索、排序的核心功能,即分詞、索引、權(quán)重排序、結(jié)果輸出功能。由于這些功能已經(jīng)封裝在Lucene中,相關(guān)的研究多集中在Lucene的索引功能和排序功能算法的優(yōu)化,導(dǎo)致Lucene相關(guān)組件調(diào)用的代碼過于冗長,在一定程度上增加了系統(tǒng)存在Bug的概率,且給軟件的后續(xù)升級帶來一定壓力,因此本文采用基本的格式化Lucene調(diào)用代碼調(diào)用Lucene組件,實(shí)現(xiàn)Lucene的基本功能,其調(diào)用方法在基本算法分析中不再贅述。通過語義分析和二次賦值兩個算法,提高了Lucene的檢索效果。

        2 基于機(jī)器學(xué)習(xí)的Lucene深度開發(fā)

        2.1 機(jī)器學(xué)習(xí)模塊的輸入輸出架構(gòu)

        經(jīng)過爬蟲檢索的原始結(jié)果序列,分兩路進(jìn)入模糊神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模塊。一路直接進(jìn)入,為一個二維序列,二維中一維為指針序列維度,一維為控制字段維度,包括指針序列號(Long格式)、文章標(biāo)題(String格式)、文章內(nèi)容快照(String格式);另一路經(jīng)Lucene進(jìn)入,經(jīng)過Lucene的分詞、索引、排序、輸出后直接輸出序列,輸出后的結(jié)果也是二維序列,且與直接進(jìn)入的二維序列相同。機(jī)器學(xué)習(xí)模塊的輸入輸出流程如圖2所示。

        圖2 機(jī)器學(xué)習(xí)模塊的輸入輸出流程

        以原始結(jié)果構(gòu)建的指針序列為例,將原始序列定義為LOG-A,經(jīng)過Lucene處理的指針序列定義為LOG-B,經(jīng)過機(jī)器學(xué)習(xí)最終輸出的指針序列定義為LOG-C。雖然上述流程中經(jīng)歷了多步操作,但其指針序列僅經(jīng)歷了2次改變,分別為經(jīng)過Lucene處理后的一次改變和經(jīng)過機(jī)器學(xué)習(xí)模塊處理后的Lucene序列改變。傳統(tǒng)Lucene序列處理后輸出的結(jié)果為LOG-B驅(qū)動下的輸出結(jié)果,而基于機(jī)器學(xué)習(xí)的Lucene改進(jìn)算法輸出的結(jié)果為LOG-C驅(qū)動下的輸出結(jié)果。

        2.2 評價(jià)標(biāo)志集生成算法

        評價(jià)標(biāo)志集生成算法其目的是檢索目標(biāo)的重排序過程,涉及到的數(shù)據(jù)量特別是非標(biāo)準(zhǔn)化的文本數(shù)據(jù)量較大,如果直接輸入神經(jīng)網(wǎng)絡(luò)中勢必增加神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)量,有較大算力需求,因此有必要采用模糊神經(jīng)網(wǎng)絡(luò)算法。將長度未知且同構(gòu)化難度較大的文本非標(biāo)準(zhǔn)數(shù)據(jù)生成標(biāo)志集,使非標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化,如圖3所示。

        圖3 評價(jià)標(biāo)志集生成算法

        圖3中形成的二維矩陣序列為不同分詞條件下的M矩陣,為每一分詞在其對應(yīng)序列下的詞頻標(biāo)志矩陣。該矩陣生成模式下,機(jī)器學(xué)習(xí)模塊的輸入變量集為寬度為n、長度為m的整型變量二維矩陣(Integer格式)。為簡化神經(jīng)網(wǎng)絡(luò),設(shè)定分詞量不多于20個,序列量不多于200個,最終形成n=20、m=200的兩個評價(jià)標(biāo)志集輸入矩陣M(m,n),可以得到神經(jīng)網(wǎng)絡(luò)的2組各4 000個輸入變量。

        2.3 機(jī)器學(xué)習(xí)模塊細(xì)節(jié)設(shè)計(jì)

        如果單純使用降維算法將8 000個輸入節(jié)點(diǎn)變?yōu)?個輸出節(jié)點(diǎn),則無法實(shí)現(xiàn)對實(shí)際序列排序結(jié)果的輸出,因此對于200個序列的重排序結(jié)果,必須確保輸出節(jié)點(diǎn)達(dá)到200個。機(jī)器學(xué)習(xí)模塊采用多列神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),每個輸出節(jié)點(diǎn)的輸出值依然為序列指針值,以保證輸出結(jié)果無需解模糊即可直接獲取實(shí)際輸出情況。多列神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。

        圖4 多列神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        圖4中,基于Lucene中200個序列指針集形成200個多列神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),每個節(jié)點(diǎn)的輸入來自于其對應(yīng)的1列Lucene輸出數(shù)據(jù)和基于原始爬蟲結(jié)果進(jìn)行降維形成的1列參照數(shù)據(jù)。

        如前文所述,模塊的數(shù)據(jù)輸入量為4 000個整型數(shù)據(jù)(Integer格式),輸出為1個雙精度浮點(diǎn)型數(shù)據(jù)(Double格式),其節(jié)點(diǎn)按照2/3取整進(jìn)行降維壓縮,即分別為2 666,1 777,1 185,790,527,352,235,157,105,70,47,32,22,15,10,7,3個節(jié)點(diǎn)。以上合計(jì)8 000個隱藏層節(jié)點(diǎn)。由于數(shù)據(jù)降維過程中會損失大量信息,為確保信息利用率,因此使用待回歸系數(shù)的多項(xiàng)式節(jié)點(diǎn)函數(shù)進(jìn)行節(jié)點(diǎn)設(shè)計(jì)。節(jié)點(diǎn)函數(shù)為:

        (1)

        式中:Y為節(jié)點(diǎn)輸出值;Xi為輸入數(shù)據(jù)列中第i個輸入項(xiàng);Aj為多項(xiàng)式的待回歸系數(shù),j為多項(xiàng)式階數(shù),此處選用6階多項(xiàng)式進(jìn)行控制,即有6個多項(xiàng)式待回歸系數(shù)。

        多列模塊分別服務(wù)于m個輸入序列,每個多列模塊僅有2個輸入節(jié)點(diǎn)和1個輸出節(jié)點(diǎn),因此其統(tǒng)計(jì)學(xué)意義并非上述參照模塊的數(shù)據(jù)降維作用,而是分析數(shù)據(jù)間的邏輯關(guān)系。為充分放大數(shù)據(jù)細(xì)節(jié),該多列模塊采用數(shù)據(jù)放大效應(yīng)最佳的對數(shù)函數(shù)進(jìn)行節(jié)點(diǎn)設(shè)計(jì),將其隱藏層設(shè)計(jì)為2層,每層3個節(jié)點(diǎn),共6個隱藏層節(jié)點(diǎn)。200列多列節(jié)點(diǎn)共含有隱藏層節(jié)點(diǎn)1 200個。節(jié)點(diǎn)函數(shù)可寫作:

        Y=∑(A·lnXi+B)

        (2)

        式中:A,B為待回歸系數(shù)。

        3 開發(fā)效果實(shí)測

        使用上述基于機(jī)器學(xué)習(xí)Lucene深度模型在LAMP開發(fā)平臺上進(jìn)行應(yīng)用實(shí)現(xiàn),同時(shí)在LAMP開發(fā)平臺上構(gòu)建純Lucene查詢系統(tǒng),即未使用上述語義識別和二次賦值數(shù)據(jù)加權(quán)的Lucene查詢系統(tǒng),對同一順序文件庫采用相同數(shù)據(jù)可視化模式,獲得優(yōu)化后的“復(fù)合模型”以及“純Lucene模型”兩組查詢結(jié)果。

        選擇100名志愿者,其中50人從事與專利轉(zhuǎn)化相關(guān)的工作,50人從事非專利轉(zhuǎn)化工作,男女各50人,年齡在24~50歲,要求其根據(jù)查詢結(jié)果做出主觀評價(jià)。在特定比較項(xiàng)目中,10分為特別滿意,0分為完全不滿意。比較兩個模型的實(shí)際分析效果,結(jié)果見表1。

        表1 信息查詢效果的主觀評價(jià)結(jié)果對比表(Lucene實(shí)現(xiàn)模式)

        由表1可知,復(fù)合模型的主觀評價(jià)結(jié)果顯著高于純Lucene模型,且t<10.000,P<0.01。同時(shí),純Lucene模型組的數(shù)據(jù)分散程度顯著高于復(fù)合模型組,即不同志愿者對純Lucene模型分析結(jié)果的主觀評價(jià)存在更大分歧,對復(fù)合模型分析結(jié)果的主觀評價(jià)相對集中。

        將復(fù)合模型評價(jià)結(jié)果與常見的技術(shù)文獻(xiàn)查詢數(shù)據(jù)庫如*乎、*度學(xué)術(shù)、中國*網(wǎng)、*方數(shù)據(jù)等的結(jié)果進(jìn)行比較。為避免侵權(quán)糾紛,本文將其順序打亂后分別稱為平臺A~平臺D,比較結(jié)果見表2。

        表2 信息查詢效果的主觀評價(jià)結(jié)果對比表(常用平臺)

        由表2可知,本文使用的復(fù)合模型的評價(jià)結(jié)果顯著高于其他常見平臺的評價(jià)結(jié)果,但該對比結(jié)果并不代表其他平臺使用的算法效能不及本文復(fù)合模型,而是因?yàn)樾畔z索業(yè)的盈利模式驅(qū)動相關(guān)平臺需對排序進(jìn)行其他形式的信息標(biāo)記加權(quán),導(dǎo)致其無法向用戶提供完全符合用戶預(yù)期的檢索結(jié)果。加之商業(yè)化專利信息展示平臺的數(shù)據(jù)來源具有局限性,導(dǎo)致其數(shù)據(jù)庫并不完善。而本文復(fù)合模型因?yàn)椴⒉惶峁┥虡I(yè)服務(wù),僅用于相關(guān)機(jī)構(gòu)內(nèi)部進(jìn)行專利信息檢索、比較,所以其檢索過程中不受上述制約因素的限制。結(jié)合表1與表2數(shù)據(jù)可以看出,即便不使用前置語義分析和后置信息加權(quán),單純使用Lucene開發(fā)工具包進(jìn)行開發(fā),其最終的主觀評價(jià)結(jié)果也優(yōu)于當(dāng)前的一些商業(yè)化專利信息展示網(wǎng)站。

        4 結(jié)束語

        通過使用基于機(jī)器學(xué)習(xí)多列神經(jīng)網(wǎng)絡(luò)的語義分析標(biāo)記模塊和后置的權(quán)重排序數(shù)據(jù)加權(quán)整合模塊,本文提出的Lucene復(fù)合檢索模型對Lucene檢索功能進(jìn)行了有益擴(kuò)充,使其檢索結(jié)果的主觀評價(jià)結(jié)果得到了提升。該模型適用于專利相關(guān)企業(yè)進(jìn)行專利開發(fā)的查新和專利轉(zhuǎn)化的信息尋訪等,如進(jìn)行商業(yè)化應(yīng)用,專利信息的爬取存在一定法務(wù)風(fēng)險(xiǎn)。本文研究的Lucene復(fù)合查詢模型,在查詢效能和查詢結(jié)果人性化程度方面尚有待提升。

        猜你喜歡
        信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        一個相似模型的應(yīng)用
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        久久精品国产只有精品96| 日韩人妻有码中文字幕| 色男色女午夜福利影院| 国产成人午夜高潮毛片| 摸进她的内裤里疯狂揉她动视频 | 国产精品久久一区二区蜜桃| 中文字幕日韩人妻少妇毛片| 少妇饥渴偷公乱a级无码 | 日韩av水蜜桃一区二区三区| 在办公室被c到呻吟的动态图| 国产免费午夜a无码v视频| 人妻少妇看A偷人无码电影| 成人大片免费在线观看视频| 国产三级视频在线观看国产| 丁香五月缴情在线| 国精品无码一区二区三区在线| 亚洲an日韩专区在线| 亚洲五月天中文字幕第一页| 精品无码久久久久久久久| 欧美人与动人物牲交免费观看| 无码伊人66久久大杳蕉网站谷歌| 男女上床免费视频网站| 洲色熟女图激情另类图区| 亚洲成a v人片在线观看| 在线精品日韩一区二区三区| 成人性生交大片免费看激情玛丽莎| 日韩精品无码熟人妻视频| 日日噜噜夜夜狠狠久久无码区| 无码丰满熟妇浪潮一区二区av| 在线观看视频免费播放| 无码国产69精品久久久久孕妇 | 国产高清人肉av在线一区二区| 麻豆精品久久久久久中文字幕无码| 国产精品久久久久久久成人午夜 | 国产精品国三级国产av| 久久精品片| 99久久综合国产精品免费| 日韩五码一区二区三区地址| 免费人成网站在线观看欧美| 国产尻逼视频| 人妻少妇中文字幕专区|