劉芳 張濤
(國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心,北京 100070)
知識(shí)圖譜(Knowledge Graph)的概念于2012 年由Google 公司提出并成功應(yīng)用于搜索引擎,給互聯(lián)網(wǎng)語(yǔ)義搜索帶來(lái)了活力,并成為互聯(lián)網(wǎng)知識(shí)驅(qū)動(dòng)的智能應(yīng)用的基礎(chǔ)設(shè)施。在知識(shí)圖譜出現(xiàn)之前,人工智能領(lǐng)域中對(duì)知識(shí)和結(jié)構(gòu)化數(shù)據(jù)的表示方式主要是本體(Ontology)[1]和數(shù)據(jù)庫(kù)(Database)兩大類(lèi)。本體是通過(guò)對(duì)象類(lèi)型、屬性類(lèi)型以及關(guān)系類(lèi)型對(duì)領(lǐng)域知識(shí)進(jìn)行形式化描述的模型,其強(qiáng)調(diào)的是抽象的概念表示,也即對(duì)數(shù)據(jù)的定義進(jìn)行描述,而不關(guān)注具體的個(gè)體以及這些具體個(gè)體間的關(guān)系。數(shù)據(jù)庫(kù)是為了用電腦表示和存儲(chǔ)人工智能中需要的數(shù)據(jù)而設(shè)計(jì)開(kāi)發(fā)的產(chǎn)品,如關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)等。其主要存儲(chǔ)數(shù)據(jù)用于數(shù)據(jù)的傳遞和交換。而對(duì)于數(shù)據(jù)的描述和定義,在傳遞和交換中會(huì)假定參與方都已經(jīng)明白和理解,例如數(shù)據(jù)庫(kù)中的學(xué)生信息,一般數(shù)據(jù)庫(kù)假設(shè)開(kāi)發(fā)者已經(jīng)知曉表結(jié)構(gòu),如表中字段屬性、主鍵含義、對(duì)應(yīng)外鍵等信息。而在人工智能中,不僅需要抽象的概念定義,也需要具體的知識(shí)實(shí)例數(shù)據(jù)、數(shù)據(jù)描述和定義等。在表達(dá)知識(shí)實(shí)例上,知識(shí)圖譜具有顯著的優(yōu)勢(shì)。知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系,將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類(lèi)認(rèn)知世界的形式。其基本組成單位是<實(shí)體,關(guān)系,實(shí)體?三元組,以及實(shí)體及其相關(guān)屬性值對(duì),實(shí)體間通過(guò)關(guān)系相互聯(lián)接,構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。
為了構(gòu)建知識(shí)圖譜得到<實(shí)體,關(guān)系,實(shí)體?三元組,離不開(kāi)實(shí)體關(guān)系抽取技術(shù)。實(shí)體關(guān)系抽取是自動(dòng)識(shí)別實(shí)體之間具有的某種語(yǔ)義關(guān)系的技術(shù),一般指的是二元關(guān)系,即兩個(gè)實(shí)體之間的關(guān)系,也可以是已知關(guān)系類(lèi)型和其中一個(gè)實(shí)體找出另一個(gè)實(shí)體。根據(jù)所抽取的關(guān)系的類(lèi)型是否預(yù)先限定,分為限定域關(guān)系抽取和開(kāi)放域關(guān)系抽取。限定域關(guān)系抽取中實(shí)體關(guān)系類(lèi)型是預(yù)先設(shè)定的有限個(gè)類(lèi)別,一般是結(jié)構(gòu)化信息中屬性關(guān)系,因此也稱屬性關(guān)系抽?。ˋttribute Relation Extraction)或者模板關(guān)系(Template Relation)抽?。?]。開(kāi)放域關(guān)系抽?。?]則不限定關(guān)系抽取的類(lèi)別,使用實(shí)體對(duì)上下文中的一些詞語(yǔ)來(lái)描述實(shí)體間的關(guān)系,因此也稱開(kāi)放信息抽取(Open Information Extraction)或者信息抽?。?](Information Extraction)。
本研究以全球和中國(guó)范圍內(nèi)的專利數(shù)據(jù)為數(shù)據(jù)源,對(duì)實(shí)體關(guān)系抽取技術(shù)領(lǐng)域的專利進(jìn)行檢索,數(shù)據(jù)庫(kù)為CNABS 和DWPI 專利數(shù)據(jù)庫(kù),結(jié)合人工篩選和數(shù)據(jù)標(biāo)引,得到公開(kāi)日為2021 年8 月1 日之前的專利文獻(xiàn)共7 202 篇。針對(duì)上述專利文獻(xiàn),從發(fā)展趨勢(shì)、主要專利申請(qǐng)人分析以及重要專利等角度對(duì)知識(shí)圖譜中實(shí)體關(guān)系抽取技術(shù)專利進(jìn)行總體分析。
從申請(qǐng)量的趨勢(shì)來(lái)看(見(jiàn)圖1),全球范圍內(nèi)在1987 年已有相關(guān)研究,2003 年增長(zhǎng)曲線開(kāi)始抬頭,我國(guó)該技術(shù)的發(fā)展從1997 年開(kāi)始起步,基本同步于1996年舉行的MUC-6(包含關(guān)系抽取任務(wù))的評(píng)測(cè)會(huì)議,2014年增長(zhǎng)曲線開(kāi)始上揚(yáng)。與全球申請(qǐng)量相比,我國(guó)對(duì)該技術(shù)的研究起步較晚,落后于世界10 年左右。但隨著國(guó)內(nèi)研究學(xué)者的持續(xù)研究和國(guó)外對(duì)國(guó)內(nèi)市場(chǎng)的重視,我國(guó)在該領(lǐng)域的申請(qǐng)量與全球申請(qǐng)水平呈現(xiàn)追趕態(tài)勢(shì)。并且從申請(qǐng)量的趨勢(shì)來(lái)看,該技術(shù)還處于增長(zhǎng)期,尤其是2015 年之后,該技術(shù)增長(zhǎng)曲線呈指數(shù)式增長(zhǎng)(注:2021 年該領(lǐng)域申請(qǐng)量急轉(zhuǎn)直下,是由于2021 年的有些專利申請(qǐng)數(shù)據(jù)還未公開(kāi))。
圖1 實(shí)體關(guān)系抽取領(lǐng)域的全球和中國(guó)申請(qǐng)量
如表1 所示,全球前十位主要申請(qǐng)人中美國(guó)占三席,分別是IBM、微軟和谷歌,中國(guó)占七席,分別是中國(guó)平安保險(xiǎn)、百度、中國(guó)科學(xué)院、騰訊、國(guó)家電網(wǎng)、阿里和華為。IBM 擁有專利數(shù)據(jù)最多,撤駁率最低授權(quán)率最高,被引度最高,這些指標(biāo)都表明IBM 具有卓越的創(chuàng)新實(shí)力和專利保護(hù)意識(shí)。中國(guó)平安保險(xiǎn)在數(shù)量上僅次于IBM,專利有效度高,但是平均生命周期較短(1.9 年),授權(quán)特征度較高,創(chuàng)新能力強(qiáng),專利保護(hù)力度待提升。百度作為以搜索、問(wèn)答等自然語(yǔ)言處理為主業(yè)的企業(yè),在知識(shí)圖譜構(gòu)建中技術(shù)創(chuàng)新優(yōu)勢(shì)顯著,專利數(shù)量?jī)H次于IBM和中國(guó)平安保險(xiǎn),專利有效度高,授權(quán)特征度合適。中國(guó)科學(xué)院中計(jì)算所、自動(dòng)化所、軟件所都有實(shí)體關(guān)系抽取的相關(guān)研究團(tuán)隊(duì),也非常重視專利申請(qǐng),申請(qǐng)數(shù)量也非??捎^,但專利度較小,授權(quán)特征度大,創(chuàng)新保護(hù)力度有待提高。騰訊作為自驅(qū)力強(qiáng)、注重自我更新進(jìn)步的企業(yè),其在實(shí)體關(guān)系抽取領(lǐng)域的技術(shù)研發(fā)投入也不小,專利有效率高,授權(quán)專利度適中。國(guó)家電網(wǎng)非常重視專利申請(qǐng),申請(qǐng)數(shù)量排第六,但是撤駁率較高,授權(quán)率較低,授權(quán)特征度高,授權(quán)專利度小,保護(hù)力度不夠。微軟作為優(yōu)秀的跨國(guó)企業(yè),在專利保護(hù)上也非常優(yōu)秀,專門(mén)成立了微軟技術(shù)許可責(zé)任有限公司用于更好地保護(hù)專利創(chuàng)新,其在授權(quán)專利度、授權(quán)特征度、同族數(shù)方面都是做得最好的,授權(quán)率上僅次于IBM 和谷歌。阿里巴巴的專利有效率高,授權(quán)專利度和特征度適中,授權(quán)率高;華為非常重視專利申請(qǐng)和保護(hù),常年穩(wěn)居專利申請(qǐng)榜第一名,在實(shí)體關(guān)系抽取領(lǐng)域也有較多技術(shù)積累,是排名前十的申請(qǐng)人中生命期最長(zhǎng)的(10 年),質(zhì)量度也最高。谷歌的專利度最大,授權(quán)專利度和特征度上僅次于微軟,與微軟相比,具有同樣優(yōu)秀的專利保護(hù)能力(注:專利度指授權(quán)時(shí)保護(hù)專利權(quán)項(xiàng)的個(gè)數(shù),該指標(biāo)越大越好;特征度指授權(quán)獨(dú)立權(quán)利要求中技術(shù)限制特征數(shù),該指標(biāo)越小越好;撤駁率和授權(quán)率分別指撤回駁回總量和授權(quán)量占該申請(qǐng)人專利申請(qǐng)總量的比值,撤駁越少授權(quán)越多越好;生命期指申請(qǐng)日至付費(fèi)結(jié)束;同族度指平均同族數(shù),被引度指平均被引用篇數(shù);被引影響度指被引用申請(qǐng)的平均影響數(shù))。
表1 前十申請(qǐng)人的專利實(shí)力情況對(duì)比表
為了找到本領(lǐng)域中具有重要技術(shù)價(jià)值的專利,對(duì)全球7 202 篇專利的具體特征進(jìn)行分析,綜合考慮專利質(zhì)量和專利影響力,也即將兩個(gè)參數(shù)的加和得到的評(píng)分作為評(píng)價(jià)指標(biāo),找到最有價(jià)值的10 件專利,如表2所示。
表2 最具專利價(jià)值的前十篇專利文獻(xiàn)對(duì)比表
對(duì)這10 篇專利文獻(xiàn)進(jìn)行分析,可以看出:IBM在其中占據(jù)6 篇,超過(guò)一半以上的比例,展示了雄厚的技術(shù)實(shí)力,中科院有2篇,華為、騰訊各有1篇,說(shuō)明中科院在科研實(shí)力上具有一定的競(jìng)爭(zhēng)優(yōu)勢(shì),華為、騰訊都有各自的知識(shí)圖譜數(shù)據(jù)庫(kù),因此在該領(lǐng)域上同樣非常具有話語(yǔ)權(quán)。這10 篇中授權(quán)專利有5 篇,時(shí)間跨度為2003—2014 年,如果國(guó)內(nèi)企業(yè)想要布局海外市場(chǎng),上述具有影響力的專利要引起足夠重視。同時(shí),上述10 篇重要專利并非都處于有效狀態(tài)。有效狀態(tài)的專利可以注意其保護(hù)期限,公開(kāi)狀態(tài)的專利可以注意其后續(xù)的審查結(jié)論。上述專利并不都具有中國(guó)同族,因此對(duì)更加重視國(guó)內(nèi)市場(chǎng)的創(chuàng)新主體而言,可能并不需要太關(guān)注那些沒(méi)有中國(guó)同族的專利。
實(shí)體關(guān)系抽取技術(shù)的發(fā)展受到了技術(shù)競(jìng)賽的推動(dòng)。消息理解會(huì)議(Message Understanding Conference,MUC)[5]的第6 年(1996 年)提出了最早的實(shí)體關(guān)系抽取任務(wù):模板元素(Template Element,TE),識(shí)別三種限定關(guān)系。2000 年后美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)組織的自動(dòng)內(nèi)容抽?。ˋutomatic Content Extraction Evaluation,ACE)代替MUC 繼續(xù)實(shí)體關(guān)系抽取的評(píng)測(cè),并將關(guān)系類(lèi)型推廣到7 個(gè)大類(lèi)和18個(gè)子類(lèi)。2009年開(kāi)始,ACE被歸為文本分析會(huì)議(Text Anylysis Conference,TAC)[6],人們認(rèn)識(shí)到關(guān)系抽取是知識(shí)庫(kù)構(gòu)建的關(guān)鍵環(huán)節(jié),將關(guān)系抽取作為知識(shí)庫(kù)構(gòu)建(Knowledge Base Population)的子任務(wù)槽填充任務(wù)(Slot Filling),關(guān)系類(lèi)型增長(zhǎng)到40 種。現(xiàn)在TAC-KBP 評(píng)測(cè)仍然是知識(shí)圖譜領(lǐng)域非常權(quán)威的評(píng)測(cè)。與MUC 同樣推動(dòng)關(guān)系抽取技術(shù)發(fā)展的還有從1998 年舉辦的語(yǔ)義評(píng)測(cè)會(huì)議(SemEval)[7],成立至今,也一直都有關(guān)系抽取相關(guān)的任務(wù)。
在上述技術(shù)評(píng)測(cè)的推動(dòng)下,形成了一些知識(shí)圖譜的雛形系統(tǒng)。限定域?qū)嶓w關(guān)系抽取的代表性成果有卡內(nèi)基梅隆大學(xué)(CMU)Mitcehll 教授團(tuán)隊(duì)于2010 年開(kāi)發(fā)出的一套自學(xué)習(xí)系統(tǒng)NELL(Never-Ending Language Learner)系統(tǒng),微軟亞洲研究院2012 年推出的一套旨在讓機(jī)器更好理解人類(lèi)交流的概念知識(shí)圖譜Probase 即Concept Graph 的前身以及谷歌公司的知識(shí)圖譜Google Knowledge Graph(2012)和Knowledge Vault(2014)。其中NELL 是卡內(nèi)基梅隆大學(xué)基于“Read the web”項(xiàng)目開(kāi)發(fā)的一套永不停歇的語(yǔ)言學(xué)習(xí)系統(tǒng),每天不間斷地執(zhí)行兩項(xiàng)任務(wù):閱讀和學(xué)習(xí),可以抽取大量的實(shí)體關(guān)系三元組,并標(biāo)注抽取的迭代次數(shù)、時(shí)間以及系統(tǒng)置信度等。Knowledge Vault 是Google 于2014 年創(chuàng)建的一個(gè)大規(guī)模知識(shí)圖譜,相較于Google 2012 年基于Freebase 的知識(shí)圖譜版本Google Knowledge Graph,Knowledge Vault 不再采用眾包的方式進(jìn)行圖譜構(gòu)建,而是通過(guò)算法自動(dòng)搜集網(wǎng)上信息,通過(guò)機(jī)器學(xué)習(xí)方法對(duì)已有的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集成和融合,將其變成可用的知識(shí)。國(guó)內(nèi)也產(chǎn)生了一些知識(shí)圖譜:2012 年公開(kāi)的搜狗知立方、2013 年公開(kāi)的百度知心,還有2017 年亮相TAC-KBP 評(píng)測(cè)的騰訊Top-Base,TopBase拿下了當(dāng)年該項(xiàng)評(píng)測(cè)的冠軍等。
隨著對(duì)限定域關(guān)系抽取的研究,研究學(xué)者發(fā)現(xiàn)限定關(guān)系抽取存在的局限性。由于自然語(yǔ)言的多樣性和豐富性,導(dǎo)致關(guān)系類(lèi)型是無(wú)法窮盡或者有些很難預(yù)先定義關(guān)系類(lèi)型,因此提出了另外一種思路,即不事先定義關(guān)系類(lèi)型,而是使用實(shí)體對(duì)上下文中的一些詞語(yǔ)來(lái)描述實(shí)體間的關(guān)系。華盛頓大學(xué)的人工智能研究組分別于2007 年陸續(xù)推出多款開(kāi)放域關(guān)系抽取系統(tǒng):TextRunner(2007 年)、Kylin(2008 年)、WOE(2010 年)、ReVerb(2011 年)等系統(tǒng),以及知識(shí)圖譜YAGO。其中TextRunner 和ReVerb 系統(tǒng)是KnowItAll 項(xiàng)目中的兩個(gè)代表系統(tǒng),ReVerb是TextRunner的升級(jí)版本。
通過(guò)以上分析,在實(shí)體關(guān)系抽取領(lǐng)域,我國(guó)相較全球起步較晚,但技術(shù)追趕之勢(shì)迅速,雖與IBM等尚有一定差距,但目前在該領(lǐng)域已經(jīng)有足夠的技術(shù)積累,至少有七家科研機(jī)構(gòu)或者企業(yè)具有與美國(guó)強(qiáng)企IBM、谷歌和微軟相競(jìng)爭(zhēng)的實(shí)力。盡管IBM 仍是該領(lǐng)域非常具有優(yōu)勢(shì)地位的國(guó)際企業(yè),但是通過(guò)中國(guó)平安保險(xiǎn)、BAT 等企業(yè)的努力,我國(guó)在該領(lǐng)域也非常有話語(yǔ)權(quán),尤其從騰訊的知識(shí)圖譜產(chǎn)品在國(guó)際比賽中取得的優(yōu)異成績(jī)來(lái)看,我國(guó)的技術(shù)實(shí)力處于世界領(lǐng)先水平。