嚴華
(國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心,北京 100160)
國家知識產(chǎn)權(quán)局檢索系統(tǒng)的全面升級中上線了智能檢索系統(tǒng)。借助智能化技術,智能檢索系統(tǒng)引入語義檢索引擎,對數(shù)據(jù)進行了多維度整合,實現(xiàn)了外文文獻中文檢索。但實踐中語義檢索和語義分詞調(diào)整等檢索方式仍然存在局限性[1],其根本原因在于“語義智能”不能代替“人”準確地提煉出檢索對象的核心檢索要素,導致推薦文獻準確度不高、噪音大等缺陷。另外,智能檢索系統(tǒng)中的多種檢索方式(如語義檢索、布爾檢索等)及其優(yōu)缺點,也在一定程度上讓檢索人員存在不知首選何種檢索方式、何時停止檢索等困惑。
專利檢索不僅要求全面、準確,而且還需要檢索人員檢索快、效能高。然而,智能檢索系統(tǒng)關鍵不僅在于立足其自身語義的優(yōu)勢基礎,還需借助“人”這一角色對檢索對象的準確把握,并快速提取出所需核心檢索要素,構(gòu)建高效檢索表達式,從而避免“語義智能”自身不足,這種檢索方式被稱為布爾檢索+語義排序,即“人工智慧+機器智能”檢索。“布爾檢索+語義排序”檢索方式的重點在于提取、表達布爾檢索中的檢索要素,以及構(gòu)建檢索式。其中,既要體現(xiàn)檢索對象的結(jié)果,又要契合被檢索對象的目的,使得檢索工作回歸到檢索對象和被檢索對象(文獻)本質(zhì)的理解。
筆者認為,文獻的本質(zhì)是作者運用某種技術手段去解決某種技術問題,最終達到某種效果意思的表達。因此,文獻實質(zhì)上是一群涉及技術手段、技術問題、技術效果等詞語集合且之間又緊密聯(lián)系的特征組合。這個“特征組合”就是基本檢索要素池,而這基本檢索要素池中必然存在些文獻著重圍繞其展開的詞語,即“核心檢索要素”,并通常具有如下特點:文獻中出現(xiàn)的次數(shù)多且之間的距離近,常常在同句/同段中出現(xiàn)。構(gòu)建一種能夠準確體現(xiàn)文獻本意的檢索式,無疑是要體現(xiàn)出核心檢索要素在文獻中展現(xiàn)的特點及其之間的緊密關系。
筆者前期研究中發(fā)現(xiàn)[2],S 系統(tǒng)中檢索表達式(K1/frec>n1)nd(K2/frec>n2)可有效緊密結(jié)合鄰近運算符nd 和frec 的優(yōu)點,不僅表達了檢索要素出現(xiàn)的頻率,還展示了檢索要素之間緊密聯(lián)系,能夠較好地體現(xiàn)發(fā)明構(gòu)思在文獻中展現(xiàn)的特征。同時,詞頻(frec)和詞距(nd)逐漸被得到運用[1]。
基于前期基礎,本文進一步探索檢索表達式(K1/frec>n1) “鄰近/同在算符”(K2/frec>n2)在智能化檢索系統(tǒng)中結(jié)合語義排序是否能有助于在農(nóng)藥等化學領域高效應用,其中鄰近/同在算符選自P、S、nD;為了確定檢索式能否廣泛適用于化學領域?qū)@暾?,本文選出農(nóng)藥及合金領域典型案例,基于語義檢索、語義分詞調(diào)整等方式,從多方位、多角度對比分析以明確其普適性。
化學領域涵蓋了有機、農(nóng)藥、冶金、高分子等多個技術領域,且申請涉及的技術主題也較為廣泛,包括產(chǎn)品(化合物、藥物組合物等)、方法(如制備方法、分離方法、用途等)。由于各個技術領域和技術主題的申請存在自身的特點,檢索要素的獨立性不同,通常這些申請在構(gòu)建檢索表達式以及檢索難度也存在較大的差異。下面分別從化合物、制備方法以及組合物方面考察檢索表達式(K1/frec>n1)“鄰近/同在算符”(K2/frec>n2)的適用性。
基于撰寫方式,化合物申請可分為馬庫什化合物申請和具體化合物申請,其檢索最大特點:單個核心關鍵詞難以有效、準確地表達出化合物結(jié)構(gòu),即檢索要素與檢索單元之間依賴性太強,故常借助STN 等平臺進行結(jié)構(gòu)等檢索,在傳統(tǒng)內(nèi)網(wǎng)檢索平臺上難以構(gòu)建出有效檢索式。
前期研究[3]中發(fā)現(xiàn),S 系統(tǒng)中運算符nd 和frec能夠有效地將核心關鍵詞緊密結(jié)合在一起,準確地表達出化合物共有結(jié)構(gòu)的構(gòu)成要素,而且形成的檢索式“(K1/frec>n1) 10d(K2/frec>n2)”能夠有效地運用于化合物申請。在此基礎上,本文考察該檢索方式結(jié)合智能檢索系統(tǒng)的語義排序,評估化合物申請的檢索效果。
1.1.1 案例1:CN2006101294671
一種具有除草活性的三氟甲基苯基噠嗪類衍生物[3],其特征在于該類衍生物可用通式(I)或(II)表示:
檢索對象解析:涉及一類含有由三氟甲基苯與噠嗪相連接構(gòu)成母核的化合物,且能用于除草。那么,期望獲得能報道包含三氟甲基苯與噠嗪構(gòu)成母核化合物的文獻,且最好還能用于除草。
基本檢索要素:三氟甲基苯;噠嗪;除草。
核心關鍵詞:三氟甲基苯;噠嗪。
檢索式:PD<20161121 and(三氟甲基苯/frec>1 A 噠嗪/frec>1)。
檢索結(jié)果見表1。
表1 案例1 檢索結(jié)果
對于農(nóng)藥領域化合物申請而言,直接語義檢索以及語義分詞調(diào)整檢索均存在漏檢風險,而依據(jù)檢索對象的解析以及基本檢索要素池的共性,準確地建立核心檢索要素池并運用鄰近/同在運算符和frec 能夠構(gòu)建出體現(xiàn)母體結(jié)構(gòu)(即共有特征)的檢索式,即“(三氟甲基苯/frec>1 A 噠嗪/frec>1)”,并利用語義排序(申請?zhí)柕?能高效、快速獲取對比文件。
組合物申請包括2 個以上組分及其相應含量,相應的檢索要素存在2 個以上(依據(jù)描述同樣分為核心要素和非核心要素),且每個檢索要素又存在多種不同的表達方式,如Zn,俗稱鋅等,這方面申請尤以合金領域典型。下面結(jié)合合金領域的具體案例來探索本文檢索式在智能檢索系統(tǒng)中的應用。
1.2.1 案例2:CN201911406874
權(quán)利要求1[1]:Al-Zn-Mg-Cu 合金,其特征包括以下質(zhì)量百分比計的制備原料:Zn:6.7%~7.2%,Mg:1.7%~2.2%,Cu:0.20%~0.45%,Mn:0.15%~0.30%,Zr:0.05%~0.20%,余量為Al;所述Al-Zn-Mg-Cu合金中,Zn 和Mg 的質(zhì)量比Zn/Mg 為3.0~4.0,Zn和Mg 的元素總量≤9.2%。
檢索對象解析:涉及一種包含Al、Zn、Mg、Cu 以及Zr 并以特定含量存在的合金。由此,審查員無疑期望獲得能報道一種包含Al、 Zn、Mg、Cu以及Zr 合金的文獻。
基本檢索要素:合金;Al;Zn;M;Cu;Zr;各成分的含量。
核心關鍵詞:Al;Zn;Mg;Cu;Zr;合金。
檢索式:pd<20191231 and((Zn or 鋅)/frec>1 A(鎂or mg)/frec>1A(銅or Cu)/frec>1A(Mn or 錳)/frec>1 A (Zr or 鋯)/frec>1 A (Al or 鋁)/frec>1 A 合金/frec>8)。
檢索結(jié)果見表2。
表2 案例2 檢索結(jié)果
在組合物申請方面,尤其對于多組分的申請,直接進行語義檢索或全要素檢索檢索,噪聲特別大,難以篩選出對比文件,且也存在漏檢的可能。而基于基本檢索要素的核心關鍵詞,協(xié)同使用鄰近/同在算符和詞頻算符(frec)構(gòu)建的檢索式(即本文檢索式)能夠提高檢索效率。
制備方法方面的申請涵蓋的要素特別多,包括原料、產(chǎn)物、具體步驟、工藝條件等,且發(fā)明點涉及的基本檢索要素非常多,直接造成檢索表達方式也是多種多樣,且采用常規(guī)的語義檢索和布爾檢索難以獲取到有效對比文件,其根本原因在于檢索式無法體現(xiàn)出核心檢索要素在文獻的特點。下面結(jié)合制備方法領域的具體案例來探索本文檢索式的高效應用。
1.3.1 案例3:CN2016108852333
權(quán)利要求1:一種酸酐與碳酸二甲酯反應合成羧酸甲酯的方法,其特征是步驟:⑴配料:取原料酸酐、碳酸二甲酯和催化劑,酸酐與碳酸二甲酯的摩爾比為1∶1~1∶100,催化劑用量為酸酐質(zhì)量分數(shù)1%~20%;所述酸酐是脂肪族酸酐或芳香族酸酐;所述催化劑是Lewis 酸或質(zhì)子酸;⑵反應:在高壓反應容器中,依次加入酸酐、碳酸二甲酯和催化劑,升溫至80~350 ℃,在壓力0.1~10.0 MPa、溫度80~350 ℃下反應1~8 h,停止加熱,降溫至室溫,放去氣體,取出反應后物料;⑶后處理:將反應后物料倒入1~5 倍體積量的飽和碳酸氫鈉水溶液中,用乙酸乙酯或二氯甲烷萃取3 次,合并萃取液、并用無水硫酸鎂或無水硫酸鈉干燥2~3 h 后,過濾,濾液經(jīng)蒸餾或減壓蒸餾除去溶劑,余下物即為制得的羧酸甲酯。
檢索對象解析:涉及一種碳酸二甲酯對脂肪族酸酐或芳香族酸酐在Lewis 酸或質(zhì)子酸進行甲基化制備羧酸甲酯的方法,并限定了相應工藝步驟。由此,審查員無疑期望獲得能報道脂肪族酸酐或芳香族酸酐中的任意酸酐與碳酸二甲酯反應制備羧酸甲酯的文獻。
基本檢索要素:脂肪族酸酐;芳香族酸酐;碳酸二甲酯;Lewis 酸;質(zhì)子酸。
核心關鍵詞:酸酐;碳酸二甲酯。
檢索式:pd<20161011 and(酸酐/frec>1 A 碳酸二甲酯/frec>1)。
檢索結(jié)果見表3。
表3 案例3 檢索結(jié)果
對于該申請,通常審查員會結(jié)合說明書中具體實施例以及從屬權(quán)利要求的附加技術特征對基本檢索要素“脂肪族酸酐或芳香族酸酐”進一步擴展為“乙酸酐、丁酸酐、苯甲酸酐”等,采用常規(guī)的語義檢索或布爾算符“and”進行檢索,這往往會因擴展不全面而導致漏檢或者噪聲過大等現(xiàn)象。但是,如果審查員能夠依據(jù)權(quán)利要求的解析、期望文獻以及基本檢索要素之間共有特征“酸酐”和“碳酸二甲酯”,并巧妙利用頻率算符frec 和鄰近/同在運算符構(gòu)建出體現(xiàn)“酸酐”和“碳酸二甲酯”重要性的檢索表達式,能夠快速獲取到相關文獻。
本文以頻率算符為基礎,聯(lián)合其他布爾運算符能夠快速降噪,在智能語義排序的加持作用下,實現(xiàn)了“人工智慧+機器智能”協(xié)同作用。在檢索實踐中,檢索人員基于檢索對象的解析,確定期望獲取的文獻,明確檢索對象-期望文獻-基本檢索要素之間的共有特征,表達為核心關鍵詞的組合,進而使用詞頻和詞距運算符來協(xié)同構(gòu)建能夠體現(xiàn)這些要素關系的檢索表達式。筆者通過多個案例證實,該方法聚焦檢索對象-期望文獻-基本檢索要素之間的共性,具有農(nóng)藥等化學領域普適性、檢索要素及關鍵詞使用少、文獻瀏覽量少等優(yōu)點,有助于在農(nóng)藥等化學領域中提高檢索效能。