亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

知識(shí)圖譜中實(shí)體關(guān)系抽取的專利狀況分析

2022-11-07 05:28:24劉芳張濤

河南科技 2022年18期

劉芳張濤

（國(guó)家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心，北京 100070）

0 引言

知識(shí)圖譜（Knowledge Graph）的概念于2012 年由Google 公司提出并成功應(yīng)用于搜索引擎，給互聯(lián)網(wǎng)語(yǔ)義搜索帶來(lái)了活力，并成為互聯(lián)網(wǎng)知識(shí)驅(qū)動(dòng)的智能應(yīng)用的基礎(chǔ)設(shè)施。在知識(shí)圖譜出現(xiàn)之前，人工智能領(lǐng)域中對(duì)知識(shí)和結(jié)構(gòu)化數(shù)據(jù)的表示方式主要是本體（Ontology）［1］和數(shù)據(jù)庫(kù)（Database）兩大類(lèi)。本體是通過(guò)對(duì)象類(lèi)型、屬性類(lèi)型以及關(guān)系類(lèi)型對(duì)領(lǐng)域知識(shí)進(jìn)行形式化描述的模型，其強(qiáng)調(diào)的是抽象的概念表示，也即對(duì)數(shù)據(jù)的定義進(jìn)行描述，而不關(guān)注具體的個(gè)體以及這些具體個(gè)體間的關(guān)系。數(shù)據(jù)庫(kù)是為了用電腦表示和存儲(chǔ)人工智能中需要的數(shù)據(jù)而設(shè)計(jì)開(kāi)發(fā)的產(chǎn)品，如關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)等。其主要存儲(chǔ)數(shù)據(jù)用于數(shù)據(jù)的傳遞和交換。而對(duì)于數(shù)據(jù)的描述和定義，在傳遞和交換中會(huì)假定參與方都已經(jīng)明白和理解，例如數(shù)據(jù)庫(kù)中的學(xué)生信息，一般數(shù)據(jù)庫(kù)假設(shè)開(kāi)發(fā)者已經(jīng)知曉表結(jié)構(gòu)，如表中字段屬性、主鍵含義、對(duì)應(yīng)外鍵等信息。而在人工智能中，不僅需要抽象的概念定義，也需要具體的知識(shí)實(shí)例數(shù)據(jù)、數(shù)據(jù)描述和定義等。在表達(dá)知識(shí)實(shí)例上，知識(shí)圖譜具有顯著的優(yōu)勢(shì)。知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù)，以結(jié)構(gòu)化的形式描述客觀世界中概念、實(shí)體及其關(guān)系，將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類(lèi)認(rèn)知世界的形式。其基本組成單位是＜實(shí)體，關(guān)系，實(shí)體？三元組，以及實(shí)體及其相關(guān)屬性值對(duì)，實(shí)體間通過(guò)關(guān)系相互聯(lián)接，構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。

為了構(gòu)建知識(shí)圖譜得到＜實(shí)體，關(guān)系，實(shí)體？三元組，離不開(kāi)實(shí)體關(guān)系抽取技術(shù)。實(shí)體關(guān)系抽取是自動(dòng)識(shí)別實(shí)體之間具有的某種語(yǔ)義關(guān)系的技術(shù)，一般指的是二元關(guān)系，即兩個(gè)實(shí)體之間的關(guān)系，也可以是已知關(guān)系類(lèi)型和其中一個(gè)實(shí)體找出另一個(gè)實(shí)體。根據(jù)所抽取的關(guān)系的類(lèi)型是否預(yù)先限定，分為限定域關(guān)系抽取和開(kāi)放域關(guān)系抽取。限定域關(guān)系抽取中實(shí)體關(guān)系類(lèi)型是預(yù)先設(shè)定的有限個(gè)類(lèi)別，一般是結(jié)構(gòu)化信息中屬性關(guān)系，因此也稱屬性關(guān)系抽?。ˋttribute Relation Extraction）或者模板關(guān)系（Template Relation）抽?。?］。開(kāi)放域關(guān)系抽?。?］則不限定關(guān)系抽取的類(lèi)別，使用實(shí)體對(duì)上下文中的一些詞語(yǔ)來(lái)描述實(shí)體間的關(guān)系，因此也稱開(kāi)放信息抽取（Open Information Extraction）或者信息抽?。?］（Information Extraction）。

1 專利申請(qǐng)現(xiàn)狀

本研究以全球和中國(guó)范圍內(nèi)的專利數(shù)據(jù)為數(shù)據(jù)源，對(duì)實(shí)體關(guān)系抽取技術(shù)領(lǐng)域的專利進(jìn)行檢索，數(shù)據(jù)庫(kù)為CNABS 和DWPI 專利數(shù)據(jù)庫(kù)，結(jié)合人工篩選和數(shù)據(jù)標(biāo)引，得到公開(kāi)日為2021 年8 月1 日之前的專利文獻(xiàn)共7 202 篇。針對(duì)上述專利文獻(xiàn)，從發(fā)展趨勢(shì)、主要專利申請(qǐng)人分析以及重要專利等角度對(duì)知識(shí)圖譜中實(shí)體關(guān)系抽取技術(shù)專利進(jìn)行總體分析。

1.1 全球/中國(guó)申請(qǐng)態(tài)勢(shì)分析

從申請(qǐng)量的趨勢(shì)來(lái)看（見(jiàn)圖1），全球范圍內(nèi)在1987 年已有相關(guān)研究，2003 年增長(zhǎng)曲線開(kāi)始抬頭，我國(guó)該技術(shù)的發(fā)展從1997 年開(kāi)始起步，基本同步于1996年舉行的MUC-6（包含關(guān)系抽取任務(wù)）的評(píng)測(cè)會(huì)議，2014年增長(zhǎng)曲線開(kāi)始上揚(yáng)。與全球申請(qǐng)量相比，我國(guó)對(duì)該技術(shù)的研究起步較晚，落后于世界10 年左右。但隨著國(guó)內(nèi)研究學(xué)者的持續(xù)研究和國(guó)外對(duì)國(guó)內(nèi)市場(chǎng)的重視，我國(guó)在該領(lǐng)域的申請(qǐng)量與全球申請(qǐng)水平呈現(xiàn)追趕態(tài)勢(shì)。并且從申請(qǐng)量的趨勢(shì)來(lái)看，該技術(shù)還處于增長(zhǎng)期，尤其是2015 年之后，該技術(shù)增長(zhǎng)曲線呈指數(shù)式增長(zhǎng)（注：2021 年該領(lǐng)域申請(qǐng)量急轉(zhuǎn)直下，是由于2021 年的有些專利申請(qǐng)數(shù)據(jù)還未公開(kāi)）。

圖1 實(shí)體關(guān)系抽取領(lǐng)域的全球和中國(guó)申請(qǐng)量

1.2 全球/中國(guó)主要申請(qǐng)人分析

如表1 所示，全球前十位主要申請(qǐng)人中美國(guó)占三席，分別是IBM、微軟和谷歌，中國(guó)占七席，分別是中國(guó)平安保險(xiǎn)、百度、中國(guó)科學(xué)院、騰訊、國(guó)家電網(wǎng)、阿里和華為。IBM 擁有專利數(shù)據(jù)最多，撤駁率最低授權(quán)率最高，被引度最高，這些指標(biāo)都表明IBM 具有卓越的創(chuàng)新實(shí)力和專利保護(hù)意識(shí)。中國(guó)平安保險(xiǎn)在數(shù)量上僅次于IBM，專利有效度高，但是平均生命周期較短（1.9 年），授權(quán)特征度較高，創(chuàng)新能力強(qiáng)，專利保護(hù)力度待提升。百度作為以搜索、問(wèn)答等自然語(yǔ)言處理為主業(yè)的企業(yè)，在知識(shí)圖譜構(gòu)建中技術(shù)創(chuàng)新優(yōu)勢(shì)顯著，專利數(shù)量?jī)H次于IBM和中國(guó)平安保險(xiǎn)，專利有效度高，授權(quán)特征度合適。中國(guó)科學(xué)院中計(jì)算所、自動(dòng)化所、軟件所都有實(shí)體關(guān)系抽取的相關(guān)研究團(tuán)隊(duì)，也非常重視專利申請(qǐng)，申請(qǐng)數(shù)量也非?？捎^，但專利度較小，授權(quán)特征度大，創(chuàng)新保護(hù)力度有待提高。騰訊作為自驅(qū)力強(qiáng)、注重自我更新進(jìn)步的企業(yè)，其在實(shí)體關(guān)系抽取領(lǐng)域的技術(shù)研發(fā)投入也不小，專利有效率高，授權(quán)專利度適中。國(guó)家電網(wǎng)非常重視專利申請(qǐng)，申請(qǐng)數(shù)量排第六，但是撤駁率較高，授權(quán)率較低，授權(quán)特征度高，授權(quán)專利度小，保護(hù)力度不夠。微軟作為優(yōu)秀的跨國(guó)企業(yè)，在專利保護(hù)上也非常優(yōu)秀，專門(mén)成立了微軟技術(shù)許可責(zé)任有限公司用于更好地保護(hù)專利創(chuàng)新，其在授權(quán)專利度、授權(quán)特征度、同族數(shù)方面都是做得最好的，授權(quán)率上僅次于IBM 和谷歌。阿里巴巴的專利有效率高，授權(quán)專利度和特征度適中，授權(quán)率高；華為非常重視專利申請(qǐng)和保護(hù)，常年穩(wěn)居專利申請(qǐng)榜第一名，在實(shí)體關(guān)系抽取領(lǐng)域也有較多技術(shù)積累，是排名前十的申請(qǐng)人中生命期最長(zhǎng)的（10 年），質(zhì)量度也最高。谷歌的專利度最大，授權(quán)專利度和特征度上僅次于微軟，與微軟相比，具有同樣優(yōu)秀的專利保護(hù)能力（注：專利度指授權(quán)時(shí)保護(hù)專利權(quán)項(xiàng)的個(gè)數(shù)，該指標(biāo)越大越好；特征度指授權(quán)獨(dú)立權(quán)利要求中技術(shù)限制特征數(shù)，該指標(biāo)越小越好；撤駁率和授權(quán)率分別指撤回駁回總量和授權(quán)量占該申請(qǐng)人專利申請(qǐng)總量的比值，撤駁越少授權(quán)越多越好；生命期指申請(qǐng)日至付費(fèi)結(jié)束；同族度指平均同族數(shù)，被引度指平均被引用篇數(shù)；被引影響度指被引用申請(qǐng)的平均影響數(shù)）。

表1 前十申請(qǐng)人的專利實(shí)力情況對(duì)比表

1.3 全球/中國(guó)主要申請(qǐng)人分析

為了找到本領(lǐng)域中具有重要技術(shù)價(jià)值的專利，對(duì)全球7 202 篇專利的具體特征進(jìn)行分析，綜合考慮專利質(zhì)量和專利影響力，也即將兩個(gè)參數(shù)的加和得到的評(píng)分作為評(píng)價(jià)指標(biāo)，找到最有價(jià)值的10 件專利，如表2所示。

表2 最具專利價(jià)值的前十篇專利文獻(xiàn)對(duì)比表

對(duì)這10 篇專利文獻(xiàn)進(jìn)行分析，可以看出：IBM在其中占據(jù)6 篇，超過(guò)一半以上的比例，展示了雄厚的技術(shù)實(shí)力，中科院有2篇，華為、騰訊各有1篇，說(shuō)明中科院在科研實(shí)力上具有一定的競(jìng)爭(zhēng)優(yōu)勢(shì)，華為、騰訊都有各自的知識(shí)圖譜數(shù)據(jù)庫(kù)，因此在該領(lǐng)域上同樣非常具有話語(yǔ)權(quán)。這10 篇中授權(quán)專利有5 篇，時(shí)間跨度為2003—2014 年，如果國(guó)內(nèi)企業(yè)想要布局海外市場(chǎng)，上述具有影響力的專利要引起足夠重視。同時(shí)，上述10 篇重要專利并非都處于有效狀態(tài)。有效狀態(tài)的專利可以注意其保護(hù)期限，公開(kāi)狀態(tài)的專利可以注意其后續(xù)的審查結(jié)論。上述專利并不都具有中國(guó)同族，因此對(duì)更加重視國(guó)內(nèi)市場(chǎng)的創(chuàng)新主體而言，可能并不需要太關(guān)注那些沒(méi)有中國(guó)同族的專利。

2 技術(shù)演進(jìn)

實(shí)體關(guān)系抽取技術(shù)的發(fā)展受到了技術(shù)競(jìng)賽的推動(dòng)。消息理解會(huì)議（Message Understanding Conference，MUC）［5］的第6 年（1996 年）提出了最早的實(shí)體關(guān)系抽取任務(wù)：模板元素（Template Element，TE），識(shí)別三種限定關(guān)系。2000 年后美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院（NIST）組織的自動(dòng)內(nèi)容抽?。ˋutomatic Content Extraction Evaluation，ACE）代替MUC 繼續(xù)實(shí)體關(guān)系抽取的評(píng)測(cè)，并將關(guān)系類(lèi)型推廣到7 個(gè)大類(lèi)和18個(gè)子類(lèi)。2009年開(kāi)始，ACE被歸為文本分析會(huì)議（Text Anylysis Conference，TAC）［6］，人們認(rèn)識(shí)到關(guān)系抽取是知識(shí)庫(kù)構(gòu)建的關(guān)鍵環(huán)節(jié)，將關(guān)系抽取作為知識(shí)庫(kù)構(gòu)建（Knowledge Base Population）的子任務(wù)槽填充任務(wù)（Slot Filling），關(guān)系類(lèi)型增長(zhǎng)到40 種。現(xiàn)在TAC-KBP 評(píng)測(cè)仍然是知識(shí)圖譜領(lǐng)域非常權(quán)威的評(píng)測(cè)。與MUC 同樣推動(dòng)關(guān)系抽取技術(shù)發(fā)展的還有從1998 年舉辦的語(yǔ)義評(píng)測(cè)會(huì)議（SemEval）［7］，成立至今，也一直都有關(guān)系抽取相關(guān)的任務(wù)。

在上述技術(shù)評(píng)測(cè)的推動(dòng)下，形成了一些知識(shí)圖譜的雛形系統(tǒng)。限定域?qū)嶓w關(guān)系抽取的代表性成果有卡內(nèi)基梅隆大學(xué)（CMU）Mitcehll 教授團(tuán)隊(duì)于2010 年開(kāi)發(fā)出的一套自學(xué)習(xí)系統(tǒng)NELL（Never-Ending Language Learner）系統(tǒng)，微軟亞洲研究院2012 年推出的一套旨在讓機(jī)器更好理解人類(lèi)交流的概念知識(shí)圖譜Probase 即Concept Graph 的前身以及谷歌公司的知識(shí)圖譜Google Knowledge Graph（2012）和Knowledge Vault（2014）。其中NELL 是卡內(nèi)基梅隆大學(xué)基于“Read the web”項(xiàng)目開(kāi)發(fā)的一套永不停歇的語(yǔ)言學(xué)習(xí)系統(tǒng)，每天不間斷地執(zhí)行兩項(xiàng)任務(wù)：閱讀和學(xué)習(xí)，可以抽取大量的實(shí)體關(guān)系三元組，并標(biāo)注抽取的迭代次數(shù)、時(shí)間以及系統(tǒng)置信度等。Knowledge Vault 是Google 于2014 年創(chuàng)建的一個(gè)大規(guī)模知識(shí)圖譜，相較于Google 2012 年基于Freebase 的知識(shí)圖譜版本Google Knowledge Graph，Knowledge Vault 不再采用眾包的方式進(jìn)行圖譜構(gòu)建，而是通過(guò)算法自動(dòng)搜集網(wǎng)上信息，通過(guò)機(jī)器學(xué)習(xí)方法對(duì)已有的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集成和融合，將其變成可用的知識(shí)。國(guó)內(nèi)也產(chǎn)生了一些知識(shí)圖譜：2012 年公開(kāi)的搜狗知立方、2013 年公開(kāi)的百度知心，還有2017 年亮相TAC-KBP 評(píng)測(cè)的騰訊Top-Base，TopBase拿下了當(dāng)年該項(xiàng)評(píng)測(cè)的冠軍等。

隨著對(duì)限定域關(guān)系抽取的研究，研究學(xué)者發(fā)現(xiàn)限定關(guān)系抽取存在的局限性。由于自然語(yǔ)言的多樣性和豐富性，導(dǎo)致關(guān)系類(lèi)型是無(wú)法窮盡或者有些很難預(yù)先定義關(guān)系類(lèi)型，因此提出了另外一種思路，即不事先定義關(guān)系類(lèi)型，而是使用實(shí)體對(duì)上下文中的一些詞語(yǔ)來(lái)描述實(shí)體間的關(guān)系。華盛頓大學(xué)的人工智能研究組分別于2007 年陸續(xù)推出多款開(kāi)放域關(guān)系抽取系統(tǒng)：TextRunner（2007 年）、Kylin（2008 年）、WOE（2010 年）、ReVerb（2011 年）等系統(tǒng)，以及知識(shí)圖譜YAGO。其中TextRunner 和ReVerb 系統(tǒng)是KnowItAll 項(xiàng)目中的兩個(gè)代表系統(tǒng)，ReVerb是TextRunner的升級(jí)版本。

3 結(jié)語(yǔ)

通過(guò)以上分析，在實(shí)體關(guān)系抽取領(lǐng)域，我國(guó)相較全球起步較晚，但技術(shù)追趕之勢(shì)迅速，雖與IBM等尚有一定差距，但目前在該領(lǐng)域已經(jīng)有足夠的技術(shù)積累，至少有七家科研機(jī)構(gòu)或者企業(yè)具有與美國(guó)強(qiáng)企IBM、谷歌和微軟相競(jìng)爭(zhēng)的實(shí)力。盡管IBM 仍是該領(lǐng)域非常具有優(yōu)勢(shì)地位的國(guó)際企業(yè)，但是通過(guò)中國(guó)平安保險(xiǎn)、BAT 等企業(yè)的努力，我國(guó)在該領(lǐng)域也非常有話語(yǔ)權(quán)，尤其從騰訊的知識(shí)圖譜產(chǎn)品在國(guó)際比賽中取得的優(yōu)異成績(jī)來(lái)看，我國(guó)的技術(shù)實(shí)力處于世界領(lǐng)先水平。