亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談Patentics智能語義檢索技巧

        2020-05-29 09:02:18章文飛
        科技視界 2020年11期
        關鍵詞:排序語義數(shù)據(jù)庫

        章文飛

        摘 要

        Patentics語義檢索目前在專利審查實踐中運用越來越廣泛,本文從選庫、常用檢索字段、算符和人工干預介紹了Patentics的檢索技巧。

        關鍵詞

        Patentics語義檢索;字段;算符;關鍵詞;人工干預

        中圖分類號: G252.7;G306 ? ? ? ? ? ? ? ? ?文獻標識碼: A

        DOI:10.19694/j.cnki.issn2095-2457.2020.11.018

        0 前言

        Patentics是基于大數(shù)據(jù)下的機器學習的智能語義檢索工具,其通過超大規(guī)模智能計算和機器學習,自動去理解海量專利文獻的內容,并根據(jù)專利文本內容進行智能語義檢索,將檢索結果按照關聯(lián)度進行由高到低的排序,極大地提高了檢索效率。本文從選庫、常用檢索字段、算符和人工干預介紹了Patentics的檢索技巧。

        1 數(shù)據(jù)庫的選擇

        采用Patentics檢索,選對數(shù)據(jù)庫很重要。Patentics包括中國(CN)、美國(US)、歐專局(EP)、日本(JP)、韓國(KR)、印度(IN)以及世界知識產權組織的PCT(WO)等多個國家和地區(qū)的數(shù)據(jù)庫,文獻量達千萬級。

        我們在選庫時,考慮到Patentics的檢索原理,優(yōu)先選擇在全文庫檢索,全文庫信息齊全且量大,適合進行語義模型訓練,而摘要庫內容少,只能作為備選數(shù)據(jù)庫。

        檢索中國專利文獻時,只需要勾選“中國發(fā)明實用(CNAPP)”庫,“中國發(fā)明實用(CNAPP)”庫其實是中國申請庫,所有的發(fā)明和實用新型的申請文本都在這個庫里,由于申請文本和授權文本的說明書內容基本一致,“中國發(fā)明實用(CNAPP)”庫就必然包括“中國發(fā)明授權(CNPAT)”的文獻內容,若兩個庫都勾選,檢索結果中會出現(xiàn)重復文件,造成目標文件在海量文獻中排序靠后。同理,為了避免文獻重復,在歐洲、日本、韓國等數(shù)據(jù)庫進行專利檢索時,也僅需單獨勾選歐洲申請、日本申請、韓國申請。

        但美國需要勾選“美國申請(USAPP)”庫和“美國授權(USPAT)”庫,這是為什么呢?因為美國從2001年3月15號之后才開始公開美國的申請版本,之前是不公開的。如果僅勾選“美國申請(USAPP)”庫,會造成2001年之前的申請版本漏檢;但如果僅勾選“美國授權(USPAT)”庫,會造成近年申請但未授權的文獻或者被駁回的文獻的漏檢。

        因此,選擇數(shù)據(jù)庫時注意:優(yōu)先選擇全文庫,文摘庫作為備選;中文庫和英文庫要分開檢索;單庫檢索要優(yōu)于多庫檢索;檢索中國專利文獻時,只需要勾選“中國發(fā)明實用(CNAPP)”庫;歐洲、日本、韓國還有中國臺灣,僅需勾選申請庫;美國是特例,既要勾選“美國申請(USAPP)”庫,還要勾選“美國授權(USPAT)”庫。

        2 常用檢索字段和算符

        2.1 “R/”和“RDI/”

        “R/”為Patentics系統(tǒng)默認的檢索字段,是Rerank的縮寫,也就是重排序的意思?!癛/”命令后可以輸入文字內容或者專利號碼,例如“R/專利號碼”或者“R/文本(一段話)”。輸入專利號碼時,系統(tǒng)會自動提取該篇專利的全文文本進行語義檢索。

        Patentics還提供“RDI/”命令,后可跟專利號碼,含義是檢索該專利申請日前公開的最接近專利文獻。與“R/”相比,“RDI/”對檢索的專利文獻的時間有了限定。

        單獨使用“R/”命令或“RDI/”命令時,系統(tǒng)會對全庫進行語義重排序,但只會給出最相關的400篇專利文獻,因為系統(tǒng)在給出檢索結果時,已將更相關的放在了最前面,排名400以后的相關度會越來越低,因此會有默認的截斷。但如果檢索人員想查看更多的信息,可以使用“CTOP/”命令限定要查看的專利數(shù)量,例如“CTOP/1000”,查看最相關的1000篇。

        在檢索時,通常采用常用檢索字段“R/”和“RDI/”進行初步檢索,將系列申請、抵觸申請以及明顯的新穎性或創(chuàng)造性對比文件查找出來。

        2.2 “R / and DI /”

        字段組合“R/ and DI/”,“R/”的用法與上述相同,“DI /”后可以跟專利號碼或者日期。當其使用方式為“R/專利號碼and ?DI/專利號碼”時,其作用與“RDI/專利號碼”相同,其中“DI/”取檢索結果中公開日在該專利申請日之前。

        一般在進行追蹤檢索或對具有優(yōu)先權的PCT申請進行檢索時,會采用“R/公開號(或中國申請?zhí)枺゛nd DI/日期”進行檢索,特別是對具有優(yōu)先權的申請進行檢索時,“DI/”后面跟具體的日期,可以排除時間上不可用的大量文獻。

        2.3 “B /”和“ A / ”

        “B/關鍵詞”,其用于全文關鍵詞檢索。常用方式為“RDI/ and B/”,例如“RDI/cn103522482 ?and ?B/冰箱”,還可“RDI/cn103522 482 ?and ?B/((冰箱 or 冷柜)and 發(fā)泡 )”。

        “A/關鍵詞”,用于檢索標題、摘要或權利要求中含有的關鍵詞?!癆/”用法與上述類似,也可根據(jù)需要采用“RDI/”與“TTL/”、“ABST/”或“ACLM/”搭配檢索,例如“RDI/ ?and ACLM/ 關鍵詞”。

        2.4 臨近算符“adj/x”和“adjn/x”

        鄰近算符不能與()配合使用,需在雙引號中使用。

        “adj/x”,為區(qū)分位置的臨近算符,使用方式為:B/”過濾 adj/3 發(fā)泡”,表示過濾和發(fā)泡間相距小于等于3個字,且過濾在發(fā)泡之前。

        “adjn/x”,為不區(qū)分位置的臨近算符,使用方式為:B /”過濾 adjn/3 發(fā)泡”,表示過濾和發(fā)泡間相距小于等于3個字,過濾和發(fā)泡的前后位置不作區(qū)分,僅支持兩個詞的臨近運算。

        2.5 同在算符“nw/x”和“np/x”

        同在算符也不能與()配合使用,也是需在雙引號中使用。

        “nw/x”,為區(qū)分位置的句同在算符,使用方式為:/”過濾 nw/3 發(fā)泡”,表示過濾和發(fā)泡出現(xiàn)在同一句子里,相隔不超過3個詞,且過濾在發(fā)泡之前;

        “np/x”,為區(qū)分位置的段同在算符,使用方式為:/”過濾 np/3 發(fā)泡”,表示過濾和發(fā)泡出現(xiàn)在同一段,相隔不超過3個詞,且過濾在發(fā)泡之前。

        3 人工干預

        在僅使用“RDI/專利號碼”對全庫語義排序檢索效果不佳時,需要進行人工干預。人工干預的方式常見的有兩種,采用關鍵詞和/或分類號。

        3.1 關鍵詞干預

        關鍵詞干預的檢索式為“RDI/專利號and B/關鍵詞”,其含義為先用B/關鍵詞檢索出一個結果集,然后再對這個檢索結果集按照RDI/專利號的涵義進行語義排序。

        采用關鍵詞干預時,可遵循“先檢準,再檢全”,優(yōu)先采用發(fā)明點關鍵詞干預,其次采用改進基礎、目的、技術領域的關鍵詞干預;盡量避免采用常見的部件名稱關鍵詞進行干預,陷入海量對比文件瀏覽中;特殊領域,不確定的詞組表達可采用單字或詞根進行干預,再交給語義來排序;盡量選取命名單一的關鍵詞(如專業(yè)術語)進行人工干預,避免使用名稱不易準確表達、也難以擴展全面的關鍵詞;關鍵詞干預效果不理想時,可對關鍵詞進行替換,若還不理想,可再將代表不同部件的多個關鍵詞“and”;可以多個干預字段聯(lián)合使用,例如:RDI/ and B/詞1 ?and AIM/詞2。

        3.2 分類號干預

        分類號干預的檢索為:“RDI/專利號and IPC/分類號”,其含義為先用IPC/分類號檢索出一個結果集,然后再對這個檢索結果集按照RDI/專利號的涵義進行語義排序。

        采用IPC分類號干預,也可遵循“先檢準再檢全”的規(guī)則,先用準確的分類號如小組分類號進行檢索,若無合適對比文件,則采用大組分類號進行檢索,再無合適對比文件,則可以采用小類分類號進行檢索。不用擔心采用小類分類號檢索范圍太大,有語義排序,能將最相關的前400篇文獻推出來。上述用小組、大組以及小類分類號檢索時,是可以結合關鍵詞一起檢索的,如:“R/公開號and B/關鍵詞and IPC/分類號”。

        3.3 文本改寫干預

        文本改寫干預主要是對“R/文本內容”中的文本內容進行改寫,也就是通過排序標準進行人工干預。

        文本改寫的目的主要是縮小排序范圍、提升語義匹配度,在改寫時要選擇與發(fā)明點相關度高的部分進行改寫,刪除干擾信息、冗余信息,增加關鍵語段、關鍵詞語(同義詞或近義詞),改寫時對晦澀文字進行常規(guī)描述的改寫,最好用具體的下位詞語表達,不要用上位概念。

        4 結語

        本文從選庫、常用檢索字段、算符和人工干預介紹了Patentics語義檢索的檢索技巧:在選擇數(shù)據(jù)庫時,根據(jù)各國數(shù)據(jù)庫的特點進行選庫,再通過常用檢索字段“R/”和“RDI/”進行初步檢索,再采用“RDI/專利號碼+關鍵詞/分類號等”進行人工干預,進行關鍵詞干預時可以運用鄰進算符、同在算符,若還沒有找到合適的對比文件,最后還可通過“R/文本改寫”實現(xiàn)排序標準的人工干預。

        猜你喜歡
        排序語義數(shù)據(jù)庫
        排序不等式
        恐怖排序
        語言與語義
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        “上”與“下”語義的不對稱性及其認知闡釋
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        亚洲精品中文字幕观看| 人人人妻人人澡人人爽欧美一区| 性欧美videofree高清精品| 欧美丰满熟妇bbbbbb百度| 成人国产精品高清在线观看| 国产一区二区熟女精品免费| 99久久久无码国产精品性| 欧美操逼视频| 91视频爱爱| 亚洲高清精品一区二区| 亚洲国产精品18久久久久久 | 欧美日韩国产成人高清视频| 亚洲欧洲精品国产二码| 亚洲av毛片一区二区久久| 久久精品国产91精品亚洲| 亚洲欧洲精品无码av| 国产精品九九九无码喷水| 免费看男女啪啪的视频网站 | 不卡av电影在线| 品色堂永远的免费论坛| 国产精品久久久久aaaa| 女人被做到高潮免费视频| 97人妻无码免费专区| 中文字幕一区二区三区四区| 99久久精品免费观看国产| 免费一区二区三区久久| 国产精品女同一区二区久| 精品人妻一区二区三区在线观看| 东京热人妻无码一区二区av| 国内精品久久久久影院优| 在线看片免费人成视久网不卡 | 国产精品福利一区二区| 特级毛片a级毛片免费播放| 亚洲AV秘 片一区二区三区| 中文字幕人妻日韩精品| 亚洲精品久久久久中文字幕| 国产午夜在线观看视频播放| 国产一区二区三区免费在线播放| 无码喷潮a片无码高潮| 伊人久久无码中文字幕| 日韩精品中文字幕 一区|