陳 悅,宋 凱,劉安蓉,曹曉陽
(1. 大連理工大學(xué)科學(xué)學(xué)與科技管理研究所暨WISE實驗室,大連 116024;2. 中國工程科技創(chuàng)新戰(zhàn)略研究院,北京 100089)
顛覆性技術(shù)宏觀邏輯路徑(圖1),展現(xiàn)出技術(shù)體系中由先導(dǎo)技術(shù)和主導(dǎo)技術(shù)突破而引起的相關(guān)技術(shù)的變革,從而發(fā)生技術(shù)體系的更新變換的歷史大尺度的技術(shù)發(fā)展圖景。以紡織技術(shù)、蒸汽動力技術(shù)、內(nèi)燃機(jī)技術(shù)、控制技術(shù)、集成電路技術(shù)、生物技術(shù)、信息技術(shù)等為代表的顛覆性技術(shù),帶動先導(dǎo)技術(shù)和主導(dǎo)技術(shù)的突破變革,最終導(dǎo)致技術(shù)體系的變換而顯現(xiàn)出顛覆性意義。
隨著技術(shù)體系內(nèi)部的矛盾運(yùn)動,子系統(tǒng)內(nèi)部及其之間體現(xiàn)出匯聚融合的趨勢。當(dāng)代 “會聚技術(shù)” 概念的正式提出[1]、美國國家研究理事會《融合:推動生命科學(xué)、物理科學(xué)、工程學(xué)等跨學(xué)科整合》的發(fā)布[2],表明學(xué)科交叉、技術(shù)融合趨勢日益顯著。日益成為關(guān)注熱點的顛覆性技術(shù)更是呈現(xiàn)出了知識域界限日益模糊的趨勢,因此,導(dǎo)致傳統(tǒng)的科學(xué)技術(shù)分類方式呈現(xiàn)出局限性,這為本文基于學(xué)科或領(lǐng)域而進(jìn)行的科技文獻(xiàn)數(shù)據(jù)檢索也帶來了挑戰(zhàn)。
專利是重要的科技文獻(xiàn)數(shù)據(jù)源,獲取精、準(zhǔn)、全的技術(shù)域?qū)@麛?shù)據(jù)集是進(jìn)行技術(shù)分析最為關(guān)鍵的基礎(chǔ)性工作。從事科技工作查新的研究者一般善于編寫較為復(fù)雜的檢索式,以各種數(shù)據(jù)庫中已有的分類(如專利分類代碼)或技術(shù)領(lǐng)域的代表詞匯作為數(shù)據(jù)檢索依據(jù),然而,由于學(xué)科的交叉性和技術(shù)域的組合特征,專利分類代碼難以有效的涵蓋所需技術(shù)領(lǐng)域的所有專利,枚舉技術(shù)領(lǐng)域的術(shù)語也較難實現(xiàn),因此,對于復(fù)雜的顛覆性技術(shù)領(lǐng)域的檢索結(jié)果存在查全率和查準(zhǔn)率低下的問題。
圖1 顛覆性技術(shù)發(fā)展的宏觀歷史路徑
人工智能技術(shù)是公認(rèn)的顛覆性技術(shù),由于人工智能技術(shù)的多學(xué)科綜合和高度融合會聚的特征,使得該技術(shù)領(lǐng)域的專利信息檢索一直存在查全率低下的問題,不同的檢索人員所獲得的數(shù)據(jù)也會具有明顯的差異[3-6]。其具體表現(xiàn)在三個方面:①界定模糊。人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門學(xué)問。狹義上,人工智能是指基于人工智能算法和技術(shù)進(jìn)行研發(fā)及拓展應(yīng)用;廣義上,人工智能還包括應(yīng)用構(gòu)建在內(nèi)的產(chǎn)業(yè)。②涉及領(lǐng)域廣泛。伴隨著技術(shù)的快速發(fā)展,人工智能呈現(xiàn)出向更廣泛的領(lǐng)域遷移的趨勢。③術(shù)語表達(dá)多樣化。在考察關(guān)鍵詞時,除了要從形式、角度和意義上對人工智能全面完整表達(dá)外,還需要熟悉人工智能領(lǐng)域本身的算法和應(yīng)用。
本文提出的基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)集構(gòu)建的新策略,根本目的是構(gòu)建完備和精準(zhǔn)顛覆性技術(shù)域的專利數(shù)據(jù)集提供一種新的思路和方法。多年以來,如何根據(jù)用戶的需求檢索到完整且精確的專利文獻(xiàn)一直是一個非?;钴S的研究領(lǐng)域,查詢拓展方法被廣泛應(yīng)用于提高信息檢索的查全率和查準(zhǔn)率。目前,專利檢索拓展的方法主要包含:基于全局查詢拓展、基于局部查詢擴(kuò)展、基于本體詞表查詢拓展和基于關(guān)聯(lián)規(guī)則查詢拓展[7](表1)。
表1 專利檢索拓展的主要方法
事實上,任何事物從無到有都是源于混沌或是有秩序的無序,人類為了便于對事物的認(rèn)識,便努力尋找出其中的秩序,分類便是其中一種秩序的顯現(xiàn)。一方面,對于技術(shù)組成體系復(fù)雜、融合學(xué)科較多的技術(shù)域,需要該領(lǐng)域?qū)<覍λ袑@M(jìn)行嚴(yán)格的人工篩選,這需要耗費大量的時間與人力。另一方面,通過上述查詢拓展方法進(jìn)行的專利檢索任務(wù),其本質(zhì)仍然是基于擴(kuò)展查詢詞構(gòu)建檢索表達(dá)式;而人工智能技術(shù)包含的知識和技能非常繁雜,這種查詢拓展方法仍然不能獲得高質(zhì)量的搜索結(jié)果。針對這種復(fù)雜的技術(shù)知識系統(tǒng),本文提出了一種基于機(jī)器學(xué)習(xí)的專利數(shù)據(jù)集構(gòu)建的新策略,用文本分類的思想替代專利查詢搜索方法,讓事物回復(fù)到本原,通過分析專利內(nèi)容對專利查詢活動進(jìn)行研究?;诰矸e神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)的特點是讓計算機(jī)自主學(xué)習(xí)經(jīng)過專家標(biāo)記好的訓(xùn)練集,對新的文本內(nèi)容及類別信息作估計與預(yù)測,以搜集到相對 “精、準(zhǔn)、全” 的人工智能專利數(shù)據(jù),進(jìn)一步形成用于技術(shù)分析的技術(shù)域數(shù)據(jù)集。
本文的基本思想是將專利檢索視為機(jī)器學(xué)習(xí)的二分類任務(wù)。以統(tǒng)計學(xué)理論為基礎(chǔ),利用算法訓(xùn)練機(jī)器,使其具有類似人類的 “學(xué)習(xí)” 能力,即對已知的訓(xùn)練數(shù)據(jù)做統(tǒng)計分析,從而獲得規(guī)律,再運(yùn)用規(guī)律對未知數(shù)據(jù)做預(yù)測分析,這樣可以改善專利檢索中的查不全和查不準(zhǔn)等問題,有助于顛覆性技術(shù)域?qū)@麛?shù)據(jù)集的構(gòu)建。目前,已有利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來形成拓展檢索詞的相關(guān)研究[23],這種方法在一定程度上提高了專利檢索準(zhǔn)確率,但對于像人工智能技術(shù)域這樣高度融合的復(fù)雜知識系統(tǒng)而言,還無法滿足技術(shù)域?qū)@麛?shù)據(jù)集的完備性。
圖2 專利文本分類流程圖
基于上述內(nèi)容,本文提出使用文本分類的方法來構(gòu)建顛覆性技術(shù)專利集的新策略和流程(圖2)。其中,分類模型基于對規(guī)模等同的 “正” “負(fù)” 兩個樣本集進(jìn)行訓(xùn)練來建立, “正” 樣本集是指確定為某技術(shù)域的專利數(shù)據(jù)集, “負(fù)” 樣本集是指確定為非該技術(shù)域的專利數(shù)據(jù)集。為驗證F-measure 特征最大化在特征選擇階段的優(yōu)越性,進(jìn)而構(gòu)建合適的分類模型,本文構(gòu)建了三種模型用于評估和測試,即 “基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural net‐works,CNN)結(jié)構(gòu)” 的文本分類、 “基于文檔嵌入word2vec (word to vector) 的CNN” 文 本 分 類 和 “基于F-measure 特征最大化學(xué)習(xí)的CNN” 文本分類。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是模擬生物的視覺神經(jīng)機(jī)制的一種神經(jīng)元網(wǎng)絡(luò),最初應(yīng)用在對大型圖像的處理上,隨后在各種自然語言處理任務(wù)中也有著令人矚目的表現(xiàn)。基于CNN 的文本分類,既可以考慮到詞語之間的關(guān)聯(lián)聯(lián)系,也可以利用單詞順序的位置信息。CNN 模型將原始文本作為輸入,無需太多的人工提取特征,本文搭建的用于分類的CNN模型結(jié)構(gòu)共分為7 層(圖3)。第一,輸入訓(xùn)練文本的索引單詞(輸入層,Input Layer);第二,將詞匯索引映射到低維度的詞向量進(jìn)行表示(嵌入層,Embedding)①選取每條專利的長度為250個單詞,每個單詞表示為200維的向量,所以每條專利可以表示為一個250×200的二維向量。;第三,縮小向量長度(卷積層,Conv1 Layer),將單詞向量合并為大的特征向量(池化層,Pooling Layer),卷積核寬度的設(shè)置要與每個單詞的維度相等②本文中卷積核的設(shè)定為200。;第三,正則化卷積神經(jīng)網(wǎng)絡(luò)(第五層Dropout 層),使神經(jīng)元可以單獨學(xué)習(xí)有用的特征;第四,由于本文只有 “正” 和 “負(fù)” 兩種類別,故將向量長度收縮到2(兩層全連接層,F(xiàn)ully Connected Layer2)。
圖3 CNN模型結(jié)構(gòu)示意圖
深度學(xué)習(xí)的本質(zhì)是對事物表示的學(xué)習(xí),構(gòu)建單詞的表示是關(guān)鍵。文本分類的機(jī)器學(xué)習(xí)模型的構(gòu)建前提是提取文檔的特征,已有的文本特征提取方法,如TF-IDF(term frequency-inverse document fre‐quency)[24]、信息增益法[25]、互信息法[26]等,均需要人為的設(shè)置特定閾值和詞語篩選,這在某種程度上會損失文檔部分信息,而使用word2vec 模型可以有效解決這個問題。
word2vec 模型[27-28]是淺層的、雙層的神經(jīng)網(wǎng)絡(luò),用于生成詞嵌入向量模型,其核心思想與自動編碼器類似,即將某個單詞作為輸入的隱藏層,并試圖重新建構(gòu)單詞的上下文。word2vec 將大量文本作為其輸入,并且產(chǎn)生幾百維的向量空間,文檔中的每一個唯一的單詞在向量空間中被映射為一個固定長度的短向量,向量空間為文檔集合詞語的向量表示,向量距離代表詞語之間的相似程度。
word2vec 模型主要有兩種模型,即CBOW 模型和Skip-Gram 模型。本文選用Skip-Gram 模型,其目標(biāo)函數(shù)為
其中,c代表上下文的窗口大小,c越大,訓(xùn)練樣本越多,準(zhǔn)確率越高?;谟?xùn)練數(shù)據(jù)構(gòu)建一個神經(jīng)網(wǎng)絡(luò),得到一個200 維的向量空間,利用訓(xùn)練好的模型所學(xué)的參數(shù)作為卷積神經(jīng)網(wǎng)絡(luò)中的嵌入層。
特征最大化方法(feature maximization)作為一種無偏度量方法,可以用于分類的質(zhì)量評估,在特征選擇階段可以提取聚類關(guān)聯(lián)特征,進(jìn)一步提高分類器的精度。其主要優(yōu)點是無參數(shù),適用于高維數(shù)據(jù)聚類及算法設(shè)計,并在分化(discrimination)和泛化(generalization)之間表現(xiàn)出比通常指標(biāo)(歐幾里得、余弦或卡方) 更好的和解性(compro‐mise)[29]。特征最大化方法的定義為:一組特征F是數(shù)據(jù)集D經(jīng)一種分類方法得到分區(qū)C的表征方式,在數(shù)據(jù)集D為文本數(shù)據(jù)的情況下,特征由文檔提取的術(shù)語表示。那么,某個聚類c(c∈C)的關(guān)聯(lián)特征f的度量指標(biāo)FFc(f)被定義為 “特征召回率(feature recall) FRc(f)” 和 “特征主導(dǎo)率(feature predominance)FPc(f)” 的調(diào)和平均值。即
其中,表示數(shù)據(jù)d的特征f的權(quán)重;FFc(f)表示聚類c的所有關(guān)聯(lián)特征;FPc(f)表示特征f表征聚類c的能力度量值;FRc(f)表示特征f表征聚類c區(qū)別于其他聚類的能力度量值。
在特征提取過程中,可以依據(jù)特征值的F測度,從中選擇得分最高的特征項,被判定給某聚類的特征項的F值既要大于所屬聚類的F平均值,又要大于所屬分區(qū)所有特征的平均特征值,在任何類中,不滿足第二個條件的特征項都要被移除。另外,定義對比度(contrast)這個特定概念來計算給定類c中保留特征f的性能:類c的特征f的對比度越高,其在描述類內(nèi)容時的性能越好。對比度可以表示為
該方法已經(jīng)成功地運(yùn)用在許多復(fù)雜的文本分類任務(wù)中[30],與現(xiàn)有的一些先進(jìn)的方法技術(shù)相比已經(jīng)顯示出非常優(yōu)越的性能,其主要的優(yōu)點是與語言無關(guān),且無參數(shù)。本文將特征最大化的特征提取方法嵌入卷積神經(jīng)網(wǎng)絡(luò)的第二層中。
德溫特專利數(shù)據(jù)庫(Derwent World Patents Index,DWPI)的深加工數(shù)據(jù)是現(xiàn)今業(yè)界最受信賴的專利研究信息來源,其收錄的專利信息均是由各個行業(yè)的技術(shù)專家進(jìn)行重新編寫、矯正和補(bǔ)充,其深入縝密的編輯流程和質(zhì)量控制保證了專利數(shù)據(jù)的權(quán)威性和準(zhǔn)確性。因此,DWPI 是進(jìn)行專利分析的理想數(shù)據(jù)源,但由于DWPI 中分類代碼中沒有人工智能的分類代碼,且手工代碼為 “artificial intelligence” 的專利僅有4640 條①檢索日期:2020.3.14;檢索式:MAN=(T01-J16 OR T06-A05A OR X13-C15B),本文無法獲得明確的AI(artifi‐cial intelligence)專利數(shù)據(jù)。美國專利數(shù)據(jù)庫(Unit‐ed States Patent and Trademark Office,USPTO)中美國專利分類體系(United States Patent Classification,USPC) 有一個明確的人工智能分類,即706 類 “Data processing:Artificial intelligence” 中共有專利13539 條(1974—2015)②檢索日期:2020.3.15;檢索式:CCL/706/$,但由 于USPTO 于2015年用聯(lián)合專利分類體系(Cooperative Patent Classifi‐cation,CPC)取代USPC 分類體系,之后該分類號下的專利不再更新。為了在DWPI 中獲取全部AI 專利數(shù)據(jù),本文以USPTO 中提取的人工智能專利作為正樣本數(shù)據(jù)集進(jìn)行實驗,形成規(guī)則,進(jìn)而形成較為完備和精準(zhǔn)的AI 專利數(shù)據(jù)集。
實驗數(shù)據(jù)集由 “正” 和 “負(fù)” 兩個樣本集構(gòu)成(圖4)。正樣本數(shù)據(jù)由13500 條源于USPTO 的AI 專利數(shù)據(jù)和依據(jù)Acemap 知識圖譜(AceKG)中人工智能主題下的本體詞表獲取的500 條短文本數(shù)據(jù)組成。由于USPTO 于2015 年后不再使用USPC 分類體系,故對于近年的AI 專利信息是缺失的。但是AI是一個快速發(fā)展的領(lǐng)域,其新名詞、新術(shù)語不斷涌現(xiàn),因而本文通過AceKG 來拓展相關(guān)信息,以保證檢索的完備性。AceKG[31]提供了近100G 大小的數(shù)據(jù)集,包括論文、作者、領(lǐng)域、機(jī)構(gòu)、期刊、會議、聯(lián)盟,支持權(quán)威和實用的學(xué)術(shù)研究,通過計算機(jī)科學(xué)主題的學(xué)術(shù)知識圖譜獲取子話題 “人工智能” 的詞表(1052 個主題詞),可以生成500 條短文本信息①短文本數(shù)據(jù)示例:artificial intelligence expert system knowledge engineering environment reasoning system SLD resolution legal expert system,最終,獲得正樣本數(shù)據(jù)共14000 條。
圖4 訓(xùn)練數(shù)據(jù)集構(gòu)成示意圖(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
由于本文最終要進(jìn)行分類的數(shù)據(jù)是DWPI 中手工代碼Section T(computer science)下所有的專利,故負(fù)樣本數(shù)據(jù)要從同一級別其他分類代碼中進(jìn)行選取,而且數(shù)據(jù)規(guī)模要等同于正樣本集,即由14000條專利組成負(fù)樣本集。具體抽取方式如附表1 所示,并且本文已通過人工專業(yè)知識從負(fù)樣本專利集合中過濾掉與人工智能相關(guān)的專利,確保了負(fù)樣本數(shù)據(jù)的準(zhǔn)確性。
3.2.1 數(shù)據(jù)預(yù)處理
抽取正、負(fù)樣本數(shù)據(jù)集中的標(biāo)題字段和摘要字段寫入到訓(xùn)練文本中,訓(xùn)練文本中的每行數(shù)據(jù)代表一個專利的標(biāo)題加摘要信息,并對每一篇專利標(biāo)明類別標(biāo)簽,正樣本為1,負(fù)樣本為0。然后,對訓(xùn)練文本進(jìn)行單詞標(biāo)準(zhǔn)化和停用詞的處理,并去掉標(biāo)點和符號。
隨機(jī)抽取1000 條專利數(shù)據(jù)(正樣本500 條、負(fù)樣本500 條),專利長度統(tǒng)計結(jié)果(圖5)表明,專利文本長度基本在50~250 個單詞的范圍之內(nèi),為了方便之后對全部專利文本做批量處理,需要對訓(xùn)練文本進(jìn)行固定長度截取,本文截取了每條專利的前250 個單詞,盡可能保留每條專利的全部信息。
圖5 專利文本長度統(tǒng)計
3.2.2 生成文檔詞向量
通常在訓(xùn)練機(jī)器學(xué)習(xí)模型時,將數(shù)據(jù)分為訓(xùn)練集、驗證集和測試集。訓(xùn)練集用于訓(xùn)練模型以及確定模型權(quán)重,驗證集用于進(jìn)一步網(wǎng)絡(luò)調(diào)參,測試集可以評估模型的精確度。本實驗將全部數(shù)據(jù)集按照8∶2 分為訓(xùn)練集和測試集,將訓(xùn)練集按照9∶1 的比例分為交叉驗證的訓(xùn)練集和驗證集。本文使用了三種模型進(jìn)行文本分類。
模型1:基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的文本分類
首先,本文使用深度學(xué)習(xí)Keras 工具提取訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的特征,將訓(xùn)練數(shù)據(jù)中的專利文本處理成單詞索引序列,單詞與序號之間的對應(yīng)關(guān)系通過此單詞索引表進(jìn)行記錄;其次,將每行專利處理成相等長度(長度不足的專利內(nèi)容用0 索引填充);最后,使用圖2 中的CNN 模型訓(xùn)練分類器進(jìn)行文本分類。
模型2:基于文檔嵌入word2vec 的CNN 文本分類
標(biāo)記好的訓(xùn)練樣本規(guī)模較小是本文在訓(xùn)練文本分類模型時面臨的一個問題,這使得準(zhǔn)確權(quán)威的訓(xùn)練樣本尤為重要。因此,本文將預(yù)訓(xùn)練好的word2vec模型遷移進(jìn)分類模型,替代CNN 模型的嵌入層,word2vec 模型已經(jīng)被證明可以大幅度提高自然語言處理模型在文本分類上的性能[32],降低學(xué)習(xí)成本。使用預(yù)訓(xùn)練好的word2vec 模型,既可以間接引入外部訓(xùn)練數(shù)據(jù)防止過擬合,又可以減少訓(xùn)練參數(shù)個數(shù)提高計算效率,使本文可以在更少的訓(xùn)練樣本上得到更可靠的分類模型。
word2vec 模型可以根據(jù)原始語料對每個詞生成一個詞向量,訓(xùn)練樣本的每一行代表這一篇專利即一個詞語序列,使用預(yù)訓(xùn)練好word2vec 的Skip-Gram 模型對訓(xùn)練文本進(jìn)行處理,因此,對于每一篇專利都可以將其轉(zhuǎn)化為一個200 維的向量,即每篇專利可以表示為一個250×200 的矩陣,其中250代表每行訓(xùn)練樣本單詞的個數(shù),200 表示每個單詞表示為200 維的向量。將通過word2vec 方法建立起的詞嵌入矩陣代替CNN 模型中的嵌入層,設(shè)置嵌入層的參數(shù)為固定參數(shù)使其不再參與訓(xùn)練過程,這樣就使得由Skip-Gram 模型提取的詞向量表示嵌入到CNN 模型之中,最后進(jìn)行分類器的訓(xùn)練。
模型3:基于F-measure 特征最大化的文本分類方法
特征最大化已被證明可以在小規(guī)模的專利數(shù)據(jù)集中有效的選擇特征[30],本文利用F指標(biāo)對監(jiān)督學(xué)習(xí)的文本分類過程進(jìn)行特征提取,將特征最大化方法與卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合。首先,本文使用由斯圖加特大學(xué)計算語言學(xué)研究所開發(fā)的TreeTagger工具[33],將訓(xùn)練文本轉(zhuǎn)換為詞袋模型,則每一篇專利可以表示為一個詞頻向量(由從其摘要和標(biāo)題中提取的術(shù)語頻率組成)。為了減少該工具所產(chǎn)生的噪聲,在提取描述符的過程將頻率閾值設(shè)置為20,整個訓(xùn)練文本集合表示為(N+1)×J矩陣,其中,J是N維空間中訓(xùn)練樣本所包含的專利數(shù)量;N+1 表示為第J篇專利的N維詞包加上其類標(biāo)簽。其次,使用TF-IDF 加權(quán)方案給出訓(xùn)練文本的稀疏矩陣表示[34],此矩陣為訓(xùn)練樣本的特征詞的權(quán)重矩陣,依據(jù)特征最大化方法選擇文本特征,使用上述特征最大化過程選擇單詞的構(gòu)成,在保證原文含義的基礎(chǔ)上找到最具有代表性的單詞,即過濾特征。最后,本文得到了對訓(xùn)練文本進(jìn)行表示的特征矩陣,將此矩陣替換CNN 模型中的嵌入層進(jìn)行分類器的訓(xùn)練。
在整個數(shù)據(jù)集上使用上述三種模型進(jìn)行訓(xùn)練測試,并且在所有的實驗中均應(yīng)用十次交叉驗證過程。交叉驗證是用來驗證分類模型性能的一種統(tǒng)計分析方法,是為了得到可靠穩(wěn)定的模型,其基本思想是將原始數(shù)據(jù)集分為訓(xùn)練集和驗證集。其中,訓(xùn)練集用于訓(xùn)練分類模型,驗證集用于分類模型的選擇。本實驗選擇了K倍交叉驗證(K-fold cross validation),Keras 允許在訓(xùn)練期間手動設(shè)置訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的比例,本研究使用全部數(shù)據(jù)集的80%用于訓(xùn)練、20%用于測試,將22400 條訓(xùn)練數(shù)據(jù)平均分成10 份,使用第2~10 份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,使用第1 份數(shù)據(jù)作為驗證集評估模型,得到一個模型準(zhǔn)確度評分。然后,微調(diào)網(wǎng)絡(luò)參數(shù),再使用第1份和第3~10 份數(shù)據(jù)重新訓(xùn)練模型,使用第2 份數(shù)據(jù)對模型進(jìn)行精確度評估。以此類推,把每一次交叉驗證結(jié)果的均值進(jìn)行比較,最終選出一個最優(yōu)值。
ROC 曲線(receiver operating characteristic curve)下方面積可作為評價分類模型優(yōu)劣的指標(biāo),線下面積越接近于1,曲線越凸向左上方向,則分類器效果越好。由圖6 可見,三個模型所訓(xùn)練出的分類器效果都較為理想,其中模型3 的分類器正確率最高。
二分類模型的單個樣本預(yù)測有4 種結(jié)果,這4種結(jié)果可以寫成一個2 × 2 的混淆矩陣,如表2所示。
以表2 的混淆矩陣為基礎(chǔ),本文選擇準(zhǔn)確率、召回率和F1 值作為分類模型的評價指標(biāo)。其中,所有樣本能夠被正確預(yù)測的比例稱為準(zhǔn)確率:
實際為正類的樣本中,能夠被正確預(yù)測為正類的比例稱為召回率:
圖6 不同分類器模型的ROC曲線
表2 混淆矩陣
F1 值用精確率和召回率的調(diào)和平均數(shù)表示:
一共存在5600 條專利文本作為測試數(shù)據(jù),對本文所訓(xùn)練的評估模型進(jìn)行檢驗(表3),由模型3 訓(xùn)練得到的分類結(jié)果最好,將人工智能專利預(yù)測為正類的數(shù)量為2798 個,將非人工智能專利預(yù)測為負(fù)類的數(shù)量為2686 個。實驗結(jié)果表明,本文所提出的技術(shù)能夠在測試集上較為精確區(qū)分正例(即AI 專利)和負(fù)例(即非AI 專利),最高能夠達(dá)到了98.01%的分類準(zhǔn)確度。因此,本文所提出的方法證明了對構(gòu)建人工智能技術(shù)專利數(shù)據(jù)集的有效性。
利用訓(xùn)練后的最優(yōu)分類模型對德溫特數(shù)據(jù)庫(Section T)①檢索日期:2020.4.20;檢索式:MAN=(T01*OR T02*OR T03*OR T04*OR T05*OR T06*OR T07*);時間跨度:1963-2019;檢索結(jié)果:7307036件專利中的專利內(nèi)容進(jìn)行遍歷和挑選,分類出人工智能專利構(gòu)成人工智能技術(shù)專利數(shù)據(jù)庫,共693281 件。按照德溫特入藏登記號(GA 字段)對專利數(shù)據(jù)進(jìn)行去重,并按照申請?zhí)枌ν鍖@M(jìn)行合并,最終獲取624234 件人工智能的申請專利。1963—2019 年,全球人工智能領(lǐng)域的專利申請數(shù)量呈現(xiàn)指數(shù)型增長趨勢,并由三個階段性增長曲線構(gòu)成(圖7)。
表3 分類結(jié)果
圖7 全球人工智能領(lǐng)域?qū)@麛?shù)量及發(fā)展趨勢
目前,人工智能無處不在,尤其在主要工業(yè)領(lǐng)域中均有應(yīng)用。因此,有效且完整的搜索策略不能局限于特定的工業(yè)領(lǐng)域。此外,人工智能的定義非常靈活,會隨著時間的推移而發(fā)展,昨天被視為人工智能領(lǐng)域的技術(shù)現(xiàn)在可能被視為常規(guī)技術(shù),新技術(shù)每天都在被發(fā)明和創(chuàng)造中。這意味對于人工智能技術(shù)專利數(shù)據(jù)集的查詢,本文必須考慮到非常廣泛的技術(shù)群。
嚴(yán)謹(jǐn)?shù)募夹g(shù)域?qū)@麢z索不應(yīng)該是一鍵式檢索,而應(yīng)該是一種探索或者說是向精、準(zhǔn)、全的檢索結(jié)果不斷攀登的一個過程。傳統(tǒng)的查全與查準(zhǔn)平衡理論,對人工智能領(lǐng)域主題的全面、精準(zhǔn)分析不再適合,在掌握數(shù)據(jù)分析的工具與理念、可視化工具的背景下,應(yīng)當(dāng)以查全優(yōu)先,這樣在后續(xù)的可視化分析中更容易提取相關(guān)的記錄,而不至于有所遺漏。對于某些學(xué)科、專題和微小的遺漏或許會造成重大的失誤。
本文從文本分類的角度,對人工智能技術(shù)域的專利數(shù)據(jù)集構(gòu)建做了一次有效的嘗試,將專利檢索任務(wù)成功地轉(zhuǎn)化為機(jī)器學(xué)習(xí)中的文本分類任務(wù),并將F-measure 特征最大化方法與CNN 模型相結(jié)合獲得了一個較好的分類效果,分類模型的準(zhǔn)確率、召回率和F1 值分別達(dá)到98.01%、97.04%和97.89%。實驗結(jié)果表明,利用種子數(shù)據(jù)集擴(kuò)充到完整數(shù)據(jù)集的這種思想是有效的、可行的。值得強(qiáng)調(diào)的是,有效的語料庫和干凈的文本數(shù)據(jù)是本文進(jìn)行文本分類的重要保障,本文所使用的訓(xùn)練數(shù)據(jù)集是由人工智能專家進(jìn)行標(biāo)注,且從時間和范圍上最大程度覆蓋了人工智能領(lǐng)域的技術(shù)群。然而,由于人工標(biāo)注成本高、耗時長,訓(xùn)練樣本集不夠豐富,在未來的研究工作中,本文將通過主動學(xué)習(xí)(active learning,AL)進(jìn)一步提高分類模型在人工智能領(lǐng)域的泛化能力。
附表1 正負(fù)訓(xùn)練樣本集抽取方法