呂璐成,韓 濤,陳 芳,王學(xué)昭,趙亞娟,郭世杰
(1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190;2.中國(guó)科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書(shū)情報(bào)與檔案管理系,北京 100190)
近年來(lái),我國(guó)科技呈現(xiàn)多點(diǎn)突破、成果涌現(xiàn)的態(tài)勢(shì),但在國(guó)際活動(dòng)中頻繁遭遇美國(guó)的科技制裁、技術(shù)封鎖、出口管制等問(wèn)題。2018年,中興公司在美國(guó)被封殺制裁,2019年華為公司遭遇特朗普政府主導(dǎo)的芯片斷供危機(jī),國(guó)內(nèi)一批高校、科研機(jī)構(gòu)和企業(yè)也被列入技術(shù)出口管制實(shí)體名單。這些現(xiàn)象引發(fā)了我國(guó)社會(huì)各界對(duì)于美國(guó)技術(shù)管制的重視。
美國(guó)的對(duì)外出口管制的歷史可以追溯到1774年[1],后來(lái)逐步推出了由《出口管理法》(Export Administration Act,EAA)及其實(shí)施細(xì)則《出口管理?xiàng)l例》(Export Administration Regulations,EAR)組成的民用品出口管制法律體系和《武器出口管制法》(Arms Export Control Act,AECA)及其施行條例《國(guó)際武器貿(mào)易條例》(International Traffic in Arms Regulations,ITAR)構(gòu)成的軍品出口管制法律體系[2]。管制清單是美國(guó)實(shí)施出口管制的重要手段,美國(guó)出口管制清單包括《商業(yè)管制清單》(Commerce Control List,CCL)、《美國(guó)軍用品清單》(United States Munitions List,USML)與《核管理委員會(huì)管制目錄》(Nuclear Regulatory Commission Controls,NRCC)[3]。目前,關(guān)注度較高的是CCL,由美國(guó)商務(wù)部工業(yè)和安全局(Bureau of In‐dustry and Security,Department of Commerce,BIS)逐年發(fā)布,其記載了該年度管制的商品類型(包括產(chǎn)品和技術(shù)等)。一般認(rèn)為,CCL中記載的技術(shù)是我國(guó)有待進(jìn)一步發(fā)展突破的技術(shù),及時(shí)了解并掌握這些技術(shù)的中美技術(shù)差距,對(duì)于我國(guó)宏觀決策、資源配置以及引導(dǎo)技術(shù)研發(fā)具有重要意義。
那么如何刻畫(huà)并揭示中美在這些技術(shù)上的差距?專利信息集技術(shù)、法律、經(jīng)濟(jì)和戰(zhàn)略信息于一體,記載著技術(shù)研發(fā)和設(shè)計(jì)成果的進(jìn)展和動(dòng)向,是當(dāng)前國(guó)際競(jìng)爭(zhēng)中的重要武器,通過(guò)分析專利布局情況能夠反映技術(shù)布局情況。因此,本研究從專利布局的角度分析管制清單中涉及技術(shù)的中美技術(shù)差距。
但是,CCL清單涉及技術(shù)的數(shù)量繁多,數(shù)據(jù)描述格式多樣,且經(jīng)常更新,對(duì)分析工作的開(kāi)展造成了極大挑戰(zhàn)。因此,本研究針對(duì)商業(yè)管制清單與專利自動(dòng)映射方法進(jìn)行研究,以實(shí)現(xiàn)在管制技術(shù)布局上的中美技術(shù)差距的高效揭示。
本節(jié)從基于管制清單的專利分析研究開(kāi)展情況以及專利文本與其他數(shù)據(jù)關(guān)聯(lián)映射的研究進(jìn)展情況兩個(gè)方面分析相關(guān)研究現(xiàn)狀。
目前,國(guó)內(nèi)基于管制清單開(kāi)展專利分析的研究數(shù)量不多,且主要依靠人工解讀技術(shù)清單提煉關(guān)鍵技術(shù),進(jìn)而擬定檢索表達(dá)式獲取技術(shù)相關(guān)專利開(kāi)展定量分析,例如,祝捷頻等[4]以數(shù)控系統(tǒng)為例,通過(guò)對(duì)《瓦森納協(xié)議》和美國(guó)商務(wù)部制定的《出口管制條例》中涉及的相關(guān)技術(shù)解讀,擬定檢索式獲取專利數(shù)據(jù)開(kāi)展定量分析,揭示中美數(shù)控領(lǐng)域?qū)@季植町悺?/p>
此外,有些研究圍繞管制清單本身采用定性分析方法和定量分析方法開(kāi)展分析解讀。定性分析方法方面,魏簡(jiǎn)康凱等[5]采用文獻(xiàn)資料研究、案例分析和歷史分析方法,以美國(guó)《2018年出口管制改革法案》為研究文本分析其核心內(nèi)容、主要特點(diǎn)以及給中國(guó)帶來(lái)的影響;陳峰[6]采用文獻(xiàn)資料研究方法解析了國(guó)外科技強(qiáng)國(guó)實(shí)施技術(shù)出口管制的競(jìng)爭(zhēng)情報(bào)含義,指出中國(guó)實(shí)施高技術(shù)出口管制需要高度倚重競(jìng)爭(zhēng)情報(bào)[7]。在定量分析方法方面,陸天馳等[8]運(yùn)用詞頻統(tǒng)計(jì)和共詞分析對(duì)美國(guó)商品管制清單中與人工智能相關(guān)的行業(yè)數(shù)據(jù)進(jìn)行分析,進(jìn)而揭示領(lǐng)域管制重點(diǎn);周磊等[9]基于2019年的實(shí)體清單數(shù)據(jù),綜合管制商品目錄及出口控制分類編碼體系,分析國(guó)內(nèi)受限機(jī)構(gòu)類型、技術(shù)出口管制領(lǐng)域、技術(shù)出口管制形式、技術(shù)出口管制原因。這些研究尚未涉及將管制清單數(shù)據(jù)與其他數(shù)據(jù)關(guān)聯(lián)分析。
目前,針對(duì)專利文本相似性的方法研究已經(jīng)有較多研究產(chǎn)出,包括基于專利分類、專利引證和文本挖掘的方法[10]。由于將專利文本與其他數(shù)據(jù)關(guān)聯(lián)映射時(shí)缺乏共類關(guān)系以及引證關(guān)系,因此,主要通過(guò)文本挖掘,即計(jì)算文本相似度的方法實(shí)現(xiàn)專利文本與其他數(shù)據(jù)自動(dòng)化關(guān)聯(lián)映射。
跨技術(shù)領(lǐng)域關(guān)聯(lián)方面,Passing等[11]采用TF-IDF(term frequency-inverse document frequency)方法,識(shí)別特定技術(shù)領(lǐng)域的專利文本關(guān)鍵術(shù)語(yǔ),通過(guò)計(jì)算其他技術(shù)領(lǐng)域與目標(biāo)技術(shù)領(lǐng)域的語(yǔ)義相似度來(lái)分析技術(shù)領(lǐng)域之間的融合關(guān)系。
專利與論文關(guān)聯(lián)方面,曾文等[12]改進(jìn)基于TFIDF的詞頻向量空間模型,將詞頻統(tǒng)計(jì)改為術(shù)語(yǔ)頻率統(tǒng)計(jì),提出了一種計(jì)算科技期刊文獻(xiàn)與專利文獻(xiàn)之間相似度的方法;徐紅姣等[13]針對(duì)采用Word2Vec對(duì)文本主題進(jìn)行聚類,通過(guò)計(jì)算主題語(yǔ)義相似性實(shí)現(xiàn)論文和專利的關(guān)聯(lián)。
專利與產(chǎn)業(yè)映射方面,田創(chuàng)等[14]基于TF-IDF和Z-score標(biāo)準(zhǔn)化方法,提出了專利數(shù)據(jù)與產(chǎn)業(yè)數(shù)據(jù)的自動(dòng)化映射方法。
專利與需求匹配方面,詹文青等[15]采用依存句法分析識(shí)別專利文本和技術(shù)需求文本的動(dòng)賓(verbobject,VOB)結(jié)構(gòu),基于語(yǔ)義TRIZ(theory of inven‐tive problem solving)框架對(duì)其技術(shù)問(wèn)題、技術(shù)功能和技術(shù)效果進(jìn)行標(biāo)注,通過(guò)相似度計(jì)算分析專利和技術(shù)需求的匹配性。
綜上可知,開(kāi)展管制清單與專利的自動(dòng)化映射方法研究具有較高的創(chuàng)新性和探索性;同時(shí),在專利數(shù)據(jù)與其他數(shù)據(jù)自動(dòng)化關(guān)聯(lián)映射方面,也有相對(duì)有效的文本相似度計(jì)算方法可被應(yīng)用。因此,本研究提出了基于文本相似度的美國(guó)商業(yè)管制清單與專利自動(dòng)映射方法,并開(kāi)展實(shí)證研究。
首先,圖1展示了本研究采用方法的整體框架,即基于美國(guó)商業(yè)管制清單數(shù)據(jù)和專利數(shù)據(jù),構(gòu)建“管制技術(shù)-專利”自動(dòng)映射模型;其次,應(yīng)用模型將管制清單數(shù)據(jù)與專利數(shù)據(jù)建立映射關(guān)系,該映射關(guān)系為“一對(duì)多”關(guān)系,即一個(gè)管制清單技術(shù)類別會(huì)對(duì)應(yīng)多件專利,而一件專利僅屬于一個(gè)最合適的管制技術(shù)類別;最后,基于該映射關(guān)系,開(kāi)展各國(guó)在各管制技術(shù)類別上的專利布局差異對(duì)比,并形成分析結(jié)論。
圖1 方法整體框架
“管制清單-專利”自動(dòng)映射模型是本研究的核心內(nèi)容,模型框架如圖2所示。核心步驟包括:
圖2 “管制清單-專利”自動(dòng)映射模型框架
Step1.對(duì)于管制清單文本和專利文本分別進(jìn)行規(guī)范化。
Step2.對(duì)于規(guī)范化管制清單文本和專利文本分別進(jìn)行向量化。
Step3.采用兩套方案對(duì)于管制清單文本向量和專利文本向量進(jìn)行相似計(jì)算;
Step4.通過(guò)測(cè)試集評(píng)判效果較優(yōu)的模型和相似度閾值,確定其為開(kāi)展后續(xù)分析的“管制清單-專利”自動(dòng)映射模型。
以下針對(duì)各個(gè)步驟的實(shí)施過(guò)程分別進(jìn)行論述。
3.2.1 文本規(guī)范化
3.2.1.1 管制清單文本規(guī)范化
管制清單文本是一類特殊的文本形式,具有專屬特征。從文本挖掘的原理看,直接將其與專利文本進(jìn)行相似計(jì)算,會(huì)在特征提取過(guò)程中產(chǎn)生文本特征被淹沒(méi)的問(wèn)題。因此,本研究對(duì)商業(yè)管制清單文本進(jìn)行了深入的人工解讀和分析,從中歸納出了管制清單文本特有的一些特征,這些特征屬于文本相似計(jì)算時(shí)的噪聲,可以在進(jìn)行文本匹配之前予以過(guò)濾,從而提升自動(dòng)映射的效果。
圖3 展示了管制清單文本規(guī)范化的流程,包括關(guān)鍵短語(yǔ)識(shí)別、噪聲文本過(guò)濾、停用詞剔除和詞干化四個(gè)步驟。
圖3 管制清單文本規(guī)范化流程
為了避免詞組被切分造成特征被稀釋的問(wèn)題,本研究首先對(duì)文本進(jìn)行了關(guān)鍵短語(yǔ)識(shí)別。關(guān)鍵短語(yǔ)識(shí)別采用基于詞典的方式進(jìn)行識(shí)別,短語(yǔ)詞典通過(guò)從Web of Science(WoS)數(shù)據(jù)庫(kù)2017年收錄的SCI(Science Citation Index)論文中抽取非單詞的詞組(如optical sensors、optical detectors)構(gòu)建,關(guān)鍵詞典包含關(guān)鍵詞組的規(guī)模為2358897個(gè)。
停用詞剔除基于停用詞表進(jìn)行,停用詞表通過(guò)人工判讀文本構(gòu)建,包含停用詞1052個(gè)。
詞干化的目的是消減英文單詞形態(tài)多樣造成的干擾,本研究采用Python的NLTK(natural language toolkit)工具包中集成的SnowballStemmer工具對(duì)文本進(jìn)行詞干化。
噪聲文本過(guò)濾是過(guò)程中的關(guān)鍵步驟。本研究將噪聲文本按照類型分為性能參數(shù)文本、解釋性文本、縮略語(yǔ)及特定用語(yǔ)文本以及無(wú)實(shí)際含義文本,采取詞性標(biāo)注規(guī)則過(guò)濾(本研究采用NLTK工具中集成的詞性標(biāo)注工具實(shí)現(xiàn))、正則過(guò)濾和直接過(guò)濾三種方式進(jìn)行噪聲文本數(shù)據(jù)的過(guò)濾剔除,具體如下文所述。
1)性能參數(shù)文本
管制清單中會(huì)對(duì)管制技術(shù)或產(chǎn)品的性能參數(shù)進(jìn)行明確的限制,包括性能范圍和具體參數(shù)。其中,性能范圍包括比較級(jí)(性能參數(shù)高于或低于某個(gè)數(shù)值)和上下限(性能參數(shù)在某個(gè)區(qū)間),但是這些參數(shù)作為文本特征的區(qū)別度不高,與專利文本進(jìn)行相似計(jì)算時(shí)發(fā)揮作用甚微,因此本研究將其剔除。性能參數(shù)文本的特征、示例以及處理方法示例如表1所示。
表1 性能參數(shù)文本特征及處理規(guī)范示例
2)解釋性文本
解釋性文本,是指對(duì)管制清單中的某項(xiàng)技術(shù)或產(chǎn)品進(jìn)行內(nèi)涵限定,包括括號(hào)解釋文本、描述性文本和預(yù)留解釋性文本。其中,描述性文本又包括成分限定、組成限定、類別限定和過(guò)渡用語(yǔ)。這些文本作為文本特征同樣沒(méi)有特別高的區(qū)別度,因此需要剔除。解釋性文本的特征、示例以及處理方法示例如表2所示。
表2 解釋性文本特征及處理規(guī)范示例
3)縮略語(yǔ)及特定用語(yǔ)
縮略語(yǔ)及特定用語(yǔ),是指管制清單中出現(xiàn)的特有的縮略語(yǔ)或短語(yǔ),包括ECCN(export control classification number)號(hào)、特定名詞和特有縮寫(xiě)(這種詞一般CCL中會(huì)有全稱)。這些文本屬于專有文本,在專利中基本不會(huì)出現(xiàn),屬于噪聲數(shù)據(jù),因此需要剔除??s略語(yǔ)及特定用語(yǔ)文本的特征、示例以及處理方法示例如表3所示。
表3 縮略語(yǔ)及特定用語(yǔ)特征及處理規(guī)范示例
4)無(wú)實(shí)際含義文本
無(wú)實(shí)際含義文本,是指管制清單中出現(xiàn)的一些通用的泛指類詞和其他噪聲文本,這些詞沒(méi)有明確含義,包括泛指名詞、程度類詞、標(biāo)點(diǎn)符號(hào)和單純數(shù)字。這些文本在文本相似計(jì)算時(shí)也屬于噪聲數(shù)據(jù),因此需要剔除。無(wú)實(shí)際含義文本的特征、示例以及處理方法示例如表4所示。
表4 無(wú)實(shí)際含義文本特征及處理規(guī)范示例
3.2.1.2 專利文本規(guī)范化
專利的標(biāo)題和摘要記載了專利的主要技術(shù)方案和實(shí)現(xiàn)的技術(shù)效果,因此本研究選取專利數(shù)據(jù)的標(biāo)題和摘要文本與管制清單進(jìn)行文本相似計(jì)算。
圖4 展示了專利文本規(guī)范化的流程,包括關(guān)鍵短語(yǔ)識(shí)別、停用詞剔除和詞干化三個(gè)步驟,這三個(gè)步驟與管制清單規(guī)范化中對(duì)應(yīng)的三個(gè)步驟一致,在此不再贅述。
圖4 專利文本規(guī)范化流程
3.2.2 文本向量化
文本向量化是文本相似計(jì)算的重要步驟。基于國(guó)內(nèi)外專利文本與其他數(shù)據(jù)自動(dòng)化關(guān)聯(lián)映射的方法,本研究采用兩種文本向量化方法進(jìn)行管制清單和專利文本向量化,即基于TF-IDF的文本向量化方法和基于Word2Vec的文本向量化方法。
1)基于TF-IDF的文本向量化
TF-IDF可以用于評(píng)估一個(gè)詞對(duì)語(yǔ)料庫(kù)中一份文件的重要程度,能夠凸顯有區(qū)別能力的特征詞。實(shí)際上,基于TF-IDF的文本向量化是構(gòu)造了目標(biāo)文本的向量空間模型(vector space model,VSM),即將文本表示成實(shí)數(shù)值分量所構(gòu)成的向量,分量采用詞的TF-IDF值進(jìn)行表示。本研究采用了Python的Gensim包中集成的TF-IDF模型實(shí)現(xiàn)文本向量化。
2)基于Word2Vec的文本向量化
雖然基于TF-IDF的向量空間模型具有清晰明確易解釋的優(yōu)點(diǎn),但是其存在向量維度隨著詞表增大而增大且向量高度稀疏的問(wèn)題,同時(shí)其也無(wú)法處理同義詞、近義詞的語(yǔ)義問(wèn)題[16]。
對(duì)此,Google公司Tomas在2013年提出的Word2Vec技術(shù)能夠使用低維度連續(xù)分布式向量來(lái)表示一個(gè)詞的語(yǔ)義[17],并且能夠有效表征同義詞、近義詞等語(yǔ)義相近的詞之間的相似關(guān)系,因此,在文本向量表示方面具有更高的可用性。Word2Vec模型是一個(gè)三層的淺層神經(jīng)網(wǎng)絡(luò),有兩種訓(xùn)練方法:CBOW和Skip-Gram。由于Skip-Gram在實(shí)際應(yīng)用時(shí)訓(xùn)練效果優(yōu)于CBOW,因此本研究采用Skip-Gram方法,基于英文專利語(yǔ)料訓(xùn)練了用于后續(xù)文本相似性計(jì)算的Word2Vec模型。
本研究利用Python語(yǔ)言編程實(shí)現(xiàn)了基于Word2Vec的文本向量化方法,具體步驟為:
Step1.從Word2Vec模型中獲取每個(gè)詞特征的詞向量,依次組合形成一個(gè)二維數(shù)組。
Step2.將二維數(shù)組的元素逐個(gè)求和,形成一個(gè)跟詞向量長(zhǎng)度一致的一維數(shù)組Array。
Step3.將一維數(shù)組歸一化,歸一化利用一維數(shù)組對(duì)應(yīng)的向量模長(zhǎng),公式為
Step4.最后得到的stArray即句子向量。
本研究得到的管制技術(shù)向量和專利文本向量的
其中,i表示第i類管制技術(shù);j表示第j件專利;n表示向量維度(本研究中,n=300);Wi,k表示第i類管制技術(shù)向量的第k個(gè)元素;wj,k表示第j件專利向量的第k個(gè)元素。
3.2.3 文本相似性計(jì)算及閾值設(shè)定
在通過(guò)文本向量化獲得管制清單各類別文本向量和專利文本向量后,本研究采用余弦相似度的方法進(jìn)行兩兩文本相似性的計(jì)算,公式為
通過(guò)逐項(xiàng)兩兩計(jì)算,獲得每一篇專利與對(duì)應(yīng)管制清單類別的相似度列表。相似度數(shù)值越大,表示專利與該管制技術(shù)類別的語(yǔ)義相似性越高,即專利屬于該管制技術(shù)類別的可能性越大。
由于并非每件專利都屬于管制技術(shù)類別,因此,本研究通過(guò)設(shè)定相似度閾值來(lái)確定屬于管制技術(shù)類別的專利,相似度閾值的設(shè)定基于模型在測(cè)試集上的映射效果來(lái)判斷。最終,選擇不低于相似度閾值的專利作為管制技術(shù)專利集合,這些專利所屬的管制技術(shù)類別為與其相似度最大的類別。
3.2.4 效果評(píng)估指標(biāo)
本研究選用準(zhǔn)確率、召回率和F1值三個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型效果,分別采用宏平均的方式進(jìn)行計(jì)算,即先對(duì)每一個(gè)類別分別計(jì)算準(zhǔn)確率、召回率和F1值,然后對(duì)所有類別計(jì)算出算數(shù)平均值,公式為
其中,K代表管制技術(shù)類別數(shù)目;k表示第k類管制技術(shù);p k、r k和F1k分別代表k類別的準(zhǔn)確率、召回率和F1值;pk是衡量正確劃分到k類別的專利占模型預(yù)測(cè)出的劃分到k類別的專利的比例,pk越大,說(shuō)明模型對(duì)于k類別專利分類越準(zhǔn)確;召回率r k是衡量正確劃分到k類別的專利占測(cè)試集中屬于k類別的專利的比例,r k越大,說(shuō)明模型在k類別上漏掉的樣本越少;F1k綜合考慮準(zhǔn)確率和召回率,F(xiàn)1k越高,說(shuō)明k類別的分類效果越理想;P、R、F1分別表示模型的準(zhǔn)確率、召回率和F1值。
基于計(jì)算得到的管制清單各技術(shù)類別與專利數(shù)據(jù)映射關(guān)系,本研究提出一套可用于技術(shù)差距分析的管制技術(shù)專利布局態(tài)勢(shì)分析框架,如圖5所示。即分別進(jìn)行各管制技術(shù)類別的專利布局國(guó)家分布對(duì)比和布局機(jī)構(gòu)分布對(duì)比,從而量化判斷各國(guó)在管制技術(shù)類別上的技術(shù)差距。
圖5 管制技術(shù)專利布局態(tài)勢(shì)分析框架
4.1.1 管制清單數(shù)據(jù)
本研究選擇的管制清單數(shù)據(jù)是美國(guó)商務(wù)部工業(yè)和安全局于2019年發(fā)布的商業(yè)管制清單。因商業(yè)管制清單中編號(hào)為0的大類“NUCLEAR MATERI‐ALS,FACILITIES,AND EQUIPMENT[AND MIS‐CELLANEOUS ITEMS]”除了包含核材料、設(shè)施和設(shè)備的少量描述外,還包括大量雜項(xiàng)技術(shù),類別內(nèi)容不聚焦,經(jīng)分析后,在本研究中不予考慮,并將其與未管制技術(shù)共同放入一類,即“未管制或0類”,類編號(hào)為“10”,其他編號(hào)1~9的技術(shù)正常進(jìn)行分析。管制技術(shù)類號(hào)及名稱如表5所示。
表5 管制技術(shù)類別
4.1.2 專利數(shù)據(jù)
由于2019年的商業(yè)管制清單是較高程度上依據(jù)前一年的技術(shù)布局情況而擬定的,因此,本研究選取2018年作為實(shí)證研究的時(shí)間節(jié)點(diǎn);另外,考慮到各國(guó)通過(guò)PCT(Patent Cooperation Treaty,專利合作條約)途徑申請(qǐng)①PCT是一項(xiàng)國(guó)際合作條約。根據(jù)PCT的規(guī)定,參加該條約的國(guó)家的專利申請(qǐng)人可以通過(guò)PCT途徑遞交國(guó)際專利申請(qǐng),向多個(gè)國(guó)家申請(qǐng)專利。中國(guó)、美國(guó)、日本、韓國(guó)、德國(guó)、法國(guó)等均是PCT成員國(guó)。的專利遵守同樣的約定,不存在明顯地域差異,且更能代表各國(guó)的技術(shù)研發(fā)實(shí)力以及在全球的技術(shù)布局策略,因此,本研究選擇了2018年全球申請(qǐng)的PCT專利與商業(yè)管制清單進(jìn)行映射研究。專利數(shù)據(jù)通過(guò)Incopat專利數(shù)據(jù)庫(kù)②https://www.incopat.com/下載,檢索式為AD=[20180101 to 20181231]AND PN=WO*,檢索日期為2019年11月13日,共獲取2018年全球PCT專利申請(qǐng)213161件。圖6展示了專利數(shù)據(jù)的Top 10技術(shù)來(lái)源國(guó)的分布情況,美國(guó)、日本、中國(guó)位列PCT專利申請(qǐng)量的前三位,三者的專利數(shù)量占全球總量的63%,專利布局優(yōu)勢(shì)較為明顯。
圖6 2018年全球PCT專利申請(qǐng)量Top 10技術(shù)來(lái)源國(guó)分布圖
4.1.3 測(cè)試數(shù)據(jù)集
本研究邀請(qǐng)具有領(lǐng)域背景知識(shí)的情報(bào)專家通過(guò)人工標(biāo)引構(gòu)建分析結(jié)果評(píng)估測(cè)試數(shù)據(jù)集。共獲得標(biāo)引數(shù)據(jù)1015條。10個(gè)類別的數(shù)據(jù)分布如圖7所示。其中,“10-未管制或0類”的專利數(shù)據(jù)最多,為357件;其次是“4-計(jì)算機(jī)”類,專利數(shù)據(jù)為121件,“8-海洋裝備”專利數(shù)據(jù)最少,為27件。
圖7 測(cè)試數(shù)據(jù)集中各類別的專利數(shù)量分布
本研究采用基于TF-IDF和基于Word2Vec兩套方案對(duì)2019年美國(guó)商業(yè)管制清單數(shù)據(jù)與2018年全球PCT專利申請(qǐng)數(shù)據(jù)進(jìn)行自動(dòng)映射計(jì)算,并利用測(cè)試數(shù)據(jù)集分別計(jì)算宏平均準(zhǔn)確率、召回率和F1值指標(biāo)。
由于兩套方案的自動(dòng)映射模型均受到文本相似度閾值的影響,因此,本研究選取多個(gè)閾值參數(shù),對(duì)其分別判斷各項(xiàng)指標(biāo)值。計(jì)算結(jié)果如表6所示。
表6 Word2Vec模型和TF-IDF模型調(diào)整閾值對(duì)應(yīng)的評(píng)估指標(biāo)計(jì)算結(jié)果
具體地,首先在[0,1]區(qū)間按照0.1的步長(zhǎng)分別取相似度閾值。研究發(fā)現(xiàn),Word2Vec模型在閾值為0.8時(shí),宏平均F1值最大;TF-IDF模型在閾值為0時(shí),宏平均F1值最大。然后,進(jìn)一步對(duì)Word2Vec模型以步長(zhǎng)0.01在[0.8,0.9]區(qū)間取閾值,對(duì)TF-IDF模型以步長(zhǎng)0.01在[0,0.1]區(qū)間取閾值,發(fā)現(xiàn)Word2Vec模型在閾值取值范圍為[0.8,0.87]①這是由于在該區(qū)間,Word2Vec模型預(yù)測(cè)的各個(gè)類的準(zhǔn)確率、召回率和F1值均相同。時(shí),宏平均F1值均取最大,取值為68.15%(表6中淺灰色底紋標(biāo)出),TF-IDF模型在閾值為0.05時(shí),宏平均F1值最大,取值為36.18%(表6中深灰色底紋標(biāo)出)。
從上述對(duì)比數(shù)據(jù)來(lái)看,Word2Vec模型的映射結(jié)果明顯優(yōu)于TF-IDF模型。究其原因發(fā)現(xiàn),管制清單與專利文本用詞差異很大,基于TF-IDF從管制清單中直接提取的詞特征很可能在專利中找不到對(duì)應(yīng)特征,因此,相似計(jì)算效果不佳;但是,Word2Vec能夠識(shí)別同近義詞的語(yǔ)義關(guān)系,所以,能夠?qū)⒐苤魄鍐沃械脑~特征與專利文本的詞特征建立相似關(guān)系,進(jìn)而實(shí)現(xiàn)較為準(zhǔn)確的相似度計(jì)算。
對(duì)于Word2Vec模型而言,相似度閾值在[0.8,0.87]區(qū)間時(shí),F(xiàn)1值最大,映射效果最優(yōu),此時(shí)的準(zhǔn)確率為68.02%,召回率為75.06%。從數(shù)據(jù)檢索的經(jīng)驗(yàn)來(lái)看,相似度閾值越高,一般檢索準(zhǔn)確率越高。因此,為了保證分析準(zhǔn)確性,本研究選擇Word2Vec模型文本相似度閾值為0.87時(shí)的映射結(jié)果開(kāi)展后續(xù)的技術(shù)差距分析。
本研究基于Word2Vec模型相似度閾值為0.87時(shí)取得的自動(dòng)映射結(jié)果,進(jìn)行2019年美國(guó)商業(yè)管制技術(shù)類別的PCT專利布局態(tài)勢(shì)對(duì)比分析。
經(jīng)過(guò)自動(dòng)映射計(jì)算,2018年全球申請(qǐng)的213161件PCT專利中,有17232件被識(shí)別為管制技術(shù)專利,占比8.08%。從整體結(jié)果來(lái)看,美國(guó)的相關(guān)專利布局最多,為5799件,優(yōu)勢(shì)較為明顯;中國(guó)由在全部專利數(shù)據(jù)中所處的第三位上升到第二位,這在一定程度上證明了我國(guó)在管制技術(shù)的布局上重視程度的提升(圖8)。
圖8 各國(guó)圍繞管制技術(shù)的PCT專利申請(qǐng)量分布
4.3.1 管制技術(shù)專利國(guó)別分布
圖9 展示了九類技術(shù)的Top 3布局國(guó)別分布圖。從圖中可以發(fā)現(xiàn),2018年中國(guó)和美國(guó)在九大領(lǐng)域中的PCT專利申請(qǐng)量均在全球前三位,呈現(xiàn)“角逐”態(tài)勢(shì),但是美國(guó)的優(yōu)勢(shì)明顯大于中國(guó)。
圖9 九類管制技術(shù)對(duì)應(yīng)的Top 3 PCT專利布局國(guó)
從分析結(jié)果來(lái)看,美國(guó)在除了材料加工之外的其他8個(gè)技術(shù)領(lǐng)域的PCT專利申請(qǐng)量均居于全球首位。尤其在計(jì)算機(jī)、傳感器和激光器、導(dǎo)航和航空電子設(shè)備以及航空航天與推進(jìn)四個(gè)領(lǐng)域,較排名第二的國(guó)家均有明顯優(yōu)勢(shì)。
中國(guó)在材料加工領(lǐng)域PCT專利布局?jǐn)?shù)量排名全球第一,但是優(yōu)勢(shì)較美國(guó)和德國(guó)并不明顯。此外,中國(guó)在除了傳感器和激光器之外的管制技術(shù)領(lǐng)域排名全球第二,與美國(guó)初具“對(duì)抗”之勢(shì)。在傳感器和激光器領(lǐng)域,中國(guó)位居全球第三,日本位居第二,這與我們對(duì)日本在精密儀器和物聯(lián)網(wǎng)方面具有較強(qiáng)技術(shù)儲(chǔ)備的認(rèn)知一致。
4.3.2 機(jī)構(gòu)分析
進(jìn)一步地,對(duì)九類管制技術(shù)的Top 5布局機(jī)構(gòu)分布進(jìn)行分析,如表7所示??梢园l(fā)現(xiàn),除傳感器和激光器技術(shù)領(lǐng)域外,我國(guó)均有機(jī)構(gòu)進(jìn)入各類別的Top 5排名機(jī)構(gòu)清單。雖然我國(guó)整體專利布局?jǐn)?shù)量不及美國(guó),但是我國(guó)的諸多機(jī)構(gòu)在各個(gè)管制技術(shù)類別里表現(xiàn)突出,例如,華為在電信和信息安全技術(shù)類別下排名第一,這與當(dāng)前美國(guó)對(duì)華為的管制措施升級(jí)現(xiàn)象吻合;還有京東方科技集團(tuán)在電子學(xué)技術(shù)類別排名第一,平安科技在計(jì)算機(jī)技術(shù)類別排名第一,大連理工大學(xué)在海洋裝備技術(shù)類別排名第一。此外,華南理工大學(xué)和南通德億新材料有限公司在特殊材料和相關(guān)設(shè)備、化學(xué)品、微生物和毒素技術(shù)類別下排名第二和第五。大疆科技公司在導(dǎo)航和航空電子設(shè)備、航空航天與推進(jìn)兩個(gè)技術(shù)類別下分別排名第二和第四,青島海爾公司在海洋裝備技術(shù)類別下排名第三等。由此可以推斷,目前我國(guó)機(jī)構(gòu)在管制技術(shù)布局方面正在逐步取得突破。
表7 九類管制技術(shù)對(duì)應(yīng)的Top 5 PCT專利布局機(jī)構(gòu)
反觀美國(guó),雖然美國(guó)整體PCT專利數(shù)量排名位居全球首位,但是美國(guó)機(jī)構(gòu)的PCT專利布局?jǐn)?shù)量并不突出。出現(xiàn)在Top 5清單中的美國(guó)機(jī)構(gòu)包括計(jì)算機(jī)技術(shù)類別下的微軟、谷歌和萬(wàn)事達(dá)國(guó)際公司,材料加工類別下的美國(guó)應(yīng)用材料公司,電信和信息安全技術(shù)、導(dǎo)航和航空電子設(shè)備技術(shù)類別下的高通公司,傳感器和激光器技術(shù)類別下的微軟公司,以及航空航天與推進(jìn)技術(shù)類別下的通用原子航空系統(tǒng)公司。
在當(dāng)下全球科技對(duì)抗形勢(shì)持續(xù)膠著的時(shí)代背景下,本研究面向高效率揭示中美在美國(guó)商業(yè)管制清單記錄的管制技術(shù)上的差距的情報(bào)需求,針對(duì)管制技術(shù)清單非結(jié)構(gòu)化程度高的問(wèn)題,提出了從專利分析的角度對(duì)比中美在管制技術(shù)上的差距的思想,采用文本挖掘手段研究了美國(guó)商業(yè)管制清單與專利自動(dòng)映射方法,并以2019年美國(guó)商業(yè)管制清單和2018年全球PCT專利申請(qǐng)數(shù)據(jù)為例開(kāi)展了實(shí)證研究,實(shí)現(xiàn)了專利視角的中美管制技術(shù)布局差距的高效揭示。
本研究的實(shí)證結(jié)果在一定程度上印證了當(dāng)前美國(guó)對(duì)華出口管制持續(xù)升溫的現(xiàn)象,能夠較好地解釋華為等中國(guó)機(jī)構(gòu)接連被管制的原因。此外,對(duì)于情報(bào)研究而言,本研究提出的方法能夠高效地關(guān)聯(lián)管制清單數(shù)據(jù)和專利數(shù)據(jù)并開(kāi)展情報(bào)分析,是提升情報(bào)分析時(shí)效性的有力手段,具有較高的實(shí)際應(yīng)用價(jià)值。
但是,本研究提出的方法得到的分析結(jié)果缺乏魯棒性,僅能作為情報(bào)研究工作的階段性輔助參考。如果需要準(zhǔn)確、深度的國(guó)家間知識(shí)產(chǎn)權(quán)差距對(duì)比,仍需專利情報(bào)分析人員介入,利用領(lǐng)域背景知識(shí),保證管制技術(shù)相關(guān)專利檢索的查全率和查準(zhǔn)率,進(jìn)而實(shí)現(xiàn)中美技術(shù)差距的精準(zhǔn)揭示。
在方法層面,本研究依靠初步構(gòu)建的停用詞庫(kù)、關(guān)鍵詞庫(kù)提升文本相似度的計(jì)算結(jié)果,在知識(shí)圖譜技術(shù)蓬勃發(fā)展的背景下[18],高質(zhì)量的知識(shí)圖譜的引入能夠進(jìn)一步提升方法的準(zhǔn)確率和可用性。