基于核心專利技術(shù)主題識別與演化分析的技術(shù)預(yù)測*

2022-07-18 06:28:04王曰芬

情報(bào)雜志 2022年7期

楊恒王曰芬張露

(1.南京理工大學(xué)知識產(chǎn)權(quán)學(xué)院南京 210094；2.天津師范大學(xué)管理學(xué)院天津 300387 )

0 引言

隨著新一輪科技革命的到來，世界各國都在加緊通過技術(shù)預(yù)測把握先發(fā)優(yōu)勢，搶占科技創(chuàng)新制高點(diǎn)?？茖W(xué)高效的技術(shù)預(yù)測工作能夠幫助國家和企業(yè)準(zhǔn)確了解技術(shù)研究熱點(diǎn)與技術(shù)發(fā)展脈絡(luò)，跟蹤世界主要國家及企業(yè)技術(shù)發(fā)展動(dòng)態(tài)、預(yù)測技術(shù)未來發(fā)展趨勢、盡快發(fā)現(xiàn)技術(shù)發(fā)展機(jī)會(huì)[1]。目前技術(shù)預(yù)測的方法主要分為基于專家智慧的定性預(yù)測法和基于數(shù)據(jù)驅(qū)動(dòng)的定量預(yù)測法[2]，兩種方法的結(jié)合使用正在成為研究關(guān)注的方向。

專利文獻(xiàn)作為技術(shù)創(chuàng)新能力的重要表現(xiàn)形式，蘊(yùn)含著極大的經(jīng)濟(jì)價(jià)值及技術(shù)價(jià)值，是理想的技術(shù)挖掘的數(shù)據(jù)來源[3]，然而隨著專利文獻(xiàn)數(shù)量的急劇增長，需要找到快速準(zhǔn)確挖掘和分析技術(shù)的方法，而對大規(guī)模的專利文獻(xiàn)進(jìn)行數(shù)據(jù)集的有效縮減以及進(jìn)行技術(shù)主題的識別與演化分析[4]將是有效且可行的方法。核心專利是一個(gè)產(chǎn)業(yè)/技術(shù)領(lǐng)域中具有重要技術(shù)價(jià)值及經(jīng)濟(jì)價(jià)值的專利，能夠反映出相關(guān)領(lǐng)域研究的核心技術(shù)，從研究內(nèi)容看，核心技術(shù)又是由一個(gè)個(gè)技術(shù)主題構(gòu)成的。因此，識別出核心專利并進(jìn)行技術(shù)主題分析，不僅可以對海量專利文獻(xiàn)進(jìn)行有效縮減，而且能夠突出重點(diǎn)地跟蹤與預(yù)測技術(shù)發(fā)展態(tài)勢，提高技術(shù)跟蹤與預(yù)測的效果和效率。

1 國內(nèi)外研究現(xiàn)狀

國內(nèi)外已有研究中，對技術(shù)主題識別的研究方法主要分為兩大種類：基于引用關(guān)系的技術(shù)主題識別方法、基于文本內(nèi)容的技術(shù)主題識別方法[5]?；谖谋緝?nèi)容的技術(shù)主題識別主要采用主題模型法，伴隨著自然語言處理技術(shù)發(fā)展而出現(xiàn)的如 Word2Vec、LDA 等高效處理文本的模型，提高了文本語義處理的效果。目前的研究一般將核心專利識別與技術(shù)主題識別分開進(jìn)行，從核心專利數(shù)據(jù)集中識別出技術(shù)主題并進(jìn)行主題演化分析的相關(guān)研究還比較有限。相關(guān)研究已經(jīng)表明：基于核心專利數(shù)據(jù)集對專利文獻(xiàn)的文本數(shù)據(jù)進(jìn)行相關(guān)術(shù)語抽取工作，與基于全數(shù)據(jù)集進(jìn)行比較，其能夠提高術(shù)語抽取的效率[6]；同時(shí)，面對海量數(shù)據(jù)，在技術(shù)主題的識別上，基于核心專利數(shù)據(jù)集進(jìn)行識別的結(jié)果能夠覆蓋基于全數(shù)據(jù)集進(jìn)行識別的結(jié)果的絕大部分，且技術(shù)主題之間的區(qū)分度較高，有助于提高識別過程的效率和識別結(jié)果的準(zhǔn)確性[7]。

因此，本文的創(chuàng)新點(diǎn)有兩點(diǎn)：一是引入核心專利的概念，從行為效果和動(dòng)機(jī)目的兩個(gè)角度入手，考慮專利的影響和價(jià)值，全面選取核心專利識別指標(biāo)和識別流程，采用客觀賦權(quán)法對指標(biāo)賦予權(quán)重，然后結(jié)合灰色關(guān)聯(lián)分析法進(jìn)行打分，確定核心專利。二是基于核心專利數(shù)據(jù)集而不是全數(shù)據(jù)集進(jìn)行技術(shù)主題的識別與演化，并將定量分析結(jié)果與專家定性評價(jià)相結(jié)合對技術(shù)進(jìn)行預(yù)測。

2 研究方案設(shè)計(jì)

2.1 研究框架

針對研究目的，本文以數(shù)據(jù)驅(qū)動(dòng)思想為指導(dǎo)，遵循數(shù)據(jù)挖掘與分析的基本流程，提出面向技術(shù)預(yù)測的核心專利技術(shù)主題識別與演化分析的研究框架設(shè)計(jì)如圖 1 所示(其中，虛線部分表示的是前期所做的研究，具體內(nèi)容見文獻(xiàn)[8]，實(shí)線部分表示的是本文所做的研究及內(nèi)容)。

圖1 研究框架設(shè)計(jì)

a.數(shù)據(jù)獲取與預(yù)處理。以德溫特專利數(shù)據(jù)庫為數(shù)據(jù)源，德溫特專利數(shù)據(jù)庫收錄了全球50家專利機(jī)構(gòu)的超過3 000萬條專利信息，與Web of Science雙向連接，從而將基礎(chǔ)研究成果和技術(shù)應(yīng)用成果聯(lián)系起來，確保了數(shù)據(jù)的全面和可靠[9]。數(shù)據(jù)預(yù)處理工作主要包括去除重復(fù)項(xiàng)、數(shù)據(jù)篩選、分詞、去除無關(guān)詞語(包括3種類型：一是停用詞，主要為一些沒有明確含義的詞，如數(shù)詞、介詞、冠詞等；二是專利中出現(xiàn)的與技術(shù)無關(guān)的常用詞如“where”“include”等；三是專利中獨(dú)特的學(xué)術(shù)詞匯如“analyze”“propose”等)、詞性標(biāo)注(抽取名詞、動(dòng)詞以及形容詞3種專利文本中的實(shí)詞)等步驟。b.核心專利識別。構(gòu)建核心專利識別指標(biāo)體系，利用熵權(quán)法、灰色關(guān)聯(lián)分析法等識別出核心專利，并進(jìn)行分類。c.技術(shù)主題識別與演化分析。依據(jù)全局和局部結(jié)合的原則，利用LDA主題模型、Word2vec詞向量模型兩種模型進(jìn)行技術(shù)主題的識別，并結(jié)合技術(shù)生命周期理論，從技術(shù)主題強(qiáng)度演化和技術(shù)主題內(nèi)容演化兩個(gè)方面進(jìn)行技術(shù)主題的演化分析。d.技術(shù)預(yù)測。在得到基于定量分析方法的技術(shù)研究熱點(diǎn)及發(fā)展趨勢后，咨詢該領(lǐng)域相關(guān)專家，借助專家智慧調(diào)整定量分析的結(jié)果，從而實(shí)現(xiàn)較為準(zhǔn)確的技術(shù)預(yù)測。

2.2 研究方法

本文是在前期研究基礎(chǔ)上進(jìn)行的，因此，有關(guān)數(shù)據(jù)獲取與預(yù)處理、核心專利識別的方法不再贅述，下面主要對技術(shù)主題識別與技術(shù)主題演化分析方法加以論述。

2.2.1技術(shù)主題識別方法

由于LDA主題模型未考慮詞語與詞語之間的關(guān)系，而Word2vec詞向量模型關(guān)注詞語之間的上下文順序和關(guān)系，從語義方面對文本內(nèi)容進(jìn)行進(jìn)一步理解。因此，本文在LDA主題模型的基礎(chǔ)上，將詞語之間的關(guān)系考慮進(jìn)去。具體做法如下：首先利用Word2vec詞向量對經(jīng)過預(yù)處理后的專利文獻(xiàn)的摘要、標(biāo)題等文本內(nèi)容進(jìn)行訓(xùn)練，以此得到所有詞語的詞向量表示，并輸出與特征詞(經(jīng)過預(yù)處理后的原始語料庫)相似度較大的值(具體輸出多少個(gè)根據(jù)實(shí)驗(yàn)需求設(shè)置)，將其擴(kuò)充至原始語料庫中，這樣就可得到新的特征詞集合 {W1,W2,W3…Wi,Wi+1,…,Wi+n}，其中，W1到Wi為經(jīng)過預(yù)處理后的原始語料庫中的詞語，Wi+1到Wi+n為擴(kuò)充的詞語，兩者結(jié)合構(gòu)成新的語料庫；然后利用LDA主題模型對新的語料庫進(jìn)行訓(xùn)練，以此獲取技術(shù)主題。將Word2vec詞向量模型以文本擴(kuò)展的形式引入，可以更深層次地挖掘文本語義知識，提高技術(shù)主題識別的質(zhì)量。主要思路流程如圖2所示：

圖2 技術(shù)主題識別的思路流程

2.2.2技術(shù)主題演化分析方法

本研究設(shè)計(jì)的技術(shù)主題演化分析方法包括技術(shù)主題強(qiáng)度演化和技術(shù)主題內(nèi)容演化兩種。

a.技術(shù)主題強(qiáng)度演化。

技術(shù)主題強(qiáng)度表達(dá)的是技術(shù)主題受關(guān)注的程度，某一時(shí)間段下相關(guān)技術(shù)的技術(shù)主題強(qiáng)度越大，則表示在該時(shí)間段中對于這些技術(shù)主題研究的熱度越高，專利文獻(xiàn)申請數(shù)量越多。對于技術(shù)主題強(qiáng)度演化的計(jì)算過程，首先需要識別出總數(shù)據(jù)集的技術(shù)主題，然后計(jì)算這些技術(shù)主題在技術(shù)生命周期中每一階段的強(qiáng)度，最后分析其演化趨勢。技術(shù)主題強(qiáng)度一般利用主題支持的文檔數(shù)量來表征，表示技術(shù)主題對于當(dāng)前時(shí)間段上文檔的貢獻(xiàn)程度，計(jì)算公式如公式(1)所示：

(1)

其中，St,k表示時(shí)間段t上第k個(gè)主題的主題強(qiáng)度，Pd,k為第d篇專利文獻(xiàn)中第k個(gè)主題的概率，Dt為時(shí)間段t上的文檔數(shù)量。

b.技術(shù)主題內(nèi)容演化。

技術(shù)主題內(nèi)容演化反映的是技術(shù)主題中主題詞的變化，主要有技術(shù)主題新生、技術(shù)主題消亡、技術(shù)主題繼承、技術(shù)主題分裂和技術(shù)主題融合5種演化類型。技術(shù)主題內(nèi)容演化分析首先需要識別出技術(shù)生命周期上各時(shí)間段的技術(shù)主題，然后衡量相鄰時(shí)間段上技術(shù)主題之間的關(guān)聯(lián)關(guān)系。目前相似度計(jì)算方法中，余弦相似度算法應(yīng)用較為廣泛。余弦相似度用兩個(gè)技術(shù)主題向量夾角的余弦值來衡量技術(shù)主題之間的關(guān)系，值越趨近于1，則表示兩個(gè)技術(shù)主題越相似，值越趨近于0，則表示兩個(gè)技術(shù)主題幾乎沒有相似性，計(jì)算方法如公式(2)所示。另外，還需根據(jù)實(shí)際設(shè)置相似度的閾值，若兩個(gè)技術(shù)主題的相似度大于閾值，則技術(shù)主題之間存在關(guān)聯(lián)關(guān)系；若兩個(gè)技術(shù)主題的相似度小于閾值，則技術(shù)主題之間不存在關(guān)聯(lián)關(guān)系。

(2)

其中，Tt、Tt+1為相鄰時(shí)間段上的主題向量，即該主題中所有詞語的概率分布所形成的主題向量。

3 實(shí)證分析

本文以人工智能領(lǐng)域?yàn)槔?，在前期?shù)據(jù)獲取與預(yù)處理、核心專利識別及技術(shù)生命周期劃分的基礎(chǔ)上，識別出201條核心專利[8]，但201條核心專利的數(shù)據(jù)量過小，不適合進(jìn)行技術(shù)主題的演化分析，因此本文進(jìn)一步調(diào)整核心專利劃分的閾值，將大于等于78%maxBi的專利劃分為準(zhǔn)核心專利(有較大可能性成為核心專利)，最終獲得3 262條準(zhǔn)核心專利。根據(jù)技術(shù)生命周期理論，結(jié)合專利申請量變化、申請人數(shù)量變化、專利申請量增長率變化，可以將1985—2019年人工智能領(lǐng)域的技術(shù)發(fā)展劃分為四個(gè)時(shí)間段[8]，其中萌芽期(1985—1999年)有558條準(zhǔn)核心專利，緩慢發(fā)展期(2000—2009年)有1 342條準(zhǔn)核心專利，快速發(fā)展期階段(2010—2014年)有922條準(zhǔn)核心專利，騰飛期(2015—2019年)有440條準(zhǔn)核心專利。另外，本文使用Python中的Ntlk工具包完成分詞、去除無關(guān)詞語、詞性標(biāo)注預(yù)處理工作。

3.1 技術(shù)主題識別

對準(zhǔn)核心專利數(shù)據(jù)進(jìn)行實(shí)際訓(xùn)練，對LDA主題模型和Word2vec詞向量模型的一些參數(shù)設(shè)置如表1所示，其他相關(guān)參數(shù)保持默認(rèn)值。

表1 LDA主題模型及Word2vec詞向量模型的主要參數(shù)設(shè)置

首先利用Word2vec詞向量模型對經(jīng)過預(yù)處理后的原始語料進(jìn)行訓(xùn)練，訓(xùn)練完成后，本文選擇模型輸出的與原始語料庫中詞語最相關(guān)的10個(gè)詞語，并且詞語之間的相似度大于0.7的詞語，將其擴(kuò)充至原始語料庫中，以此得到新的語料庫，然后基于LDA主題模型對新的語料庫進(jìn)行訓(xùn)練處理。LDA主題模型的訓(xùn)練需要確定主題個(gè)數(shù)K的值，這將直接影響對技術(shù)主題識別的效果，本文通過計(jì)算困惑度來獲取K的值，一般來說，困惑度值越低，對應(yīng)的技術(shù)主題個(gè)數(shù)最優(yōu)，但困惑度值只能作為一個(gè)參考，具體情況還需考慮實(shí)驗(yàn)運(yùn)行情況及主觀需求。圖3為主題個(gè)數(shù)在1～100時(shí)困惑度的變化曲線，曲線的跨度設(shè)置為5，從圖中可以看到，在主題個(gè)數(shù)為0～10時(shí)，困惑度曲線呈現(xiàn)急速下降趨勢；主題個(gè)數(shù)為10～26時(shí)，困惑度曲線呈現(xiàn)緩慢下降趨勢；主題個(gè)數(shù)為26～100時(shí)，困惑度曲線呈現(xiàn)平穩(wěn)、輕微波動(dòng)狀態(tài)。因此，本文綜合考慮困惑度值和本研究的實(shí)際需求，將主題個(gè)數(shù)設(shè)置為26。

圖3 不同主題個(gè)數(shù)下的困惑度曲線圖

根據(jù)各個(gè)技術(shù)主題所包含的主題詞對所識別出的26個(gè)技術(shù)主題進(jìn)行命名，分別為智能搜索(Topic#1)、通信(Topic#2)、人機(jī)交互(Topic#3)、智能醫(yī)療(Topic#4)、智能汽車(Topic#5)、語音識別(Topic#6)、問答系統(tǒng)(Topic#7)、圖像視頻識別(Topic#8)、機(jī)器翻譯(Topic#9)、數(shù)據(jù)存儲(chǔ)(Topic#10)、知識表示(Topic#11)、圖像處理(Topic#12)、神經(jīng)網(wǎng)絡(luò)(Topic#13)、虛擬現(xiàn)實(shí)(Topic#14)、自然語言處理(Topic#15)、信號處理(Topic#16)、算法模型(Topic#17)、計(jì)算機(jī)系統(tǒng)(Topic#18)、機(jī)器學(xué)習(xí)(Topic#19)、目標(biāo)檢測(Topic#20)、移動(dòng)設(shè)備(Topic#21)、模式識別(Topic#22)、分析與挖掘(Topic#23)、過程控制(Topic#24)、生物特征識別(Topic#25)、智能金融(Topic#26)，表2展示了所識別出的26個(gè)技術(shù)主題中的10個(gè)技術(shù)主題及主題詞。

表2 技術(shù)主題識別結(jié)果(其中10個(gè))

3.2 技術(shù)主題演化

3.2.1技術(shù)主題強(qiáng)度演化

由上已經(jīng)得到基于準(zhǔn)核心專利數(shù)據(jù)所識別出的26個(gè)技術(shù)主題，再根據(jù)技術(shù)主題強(qiáng)度計(jì)算公式(1)，計(jì)算技術(shù)主題在技術(shù)生命周期中各個(gè)階段的主題強(qiáng)度值，如表3所示。

根據(jù)表3可以繪制技術(shù)主題強(qiáng)度變化圖譜，據(jù)此可以看出大部分技術(shù)主題的主題強(qiáng)度都呈現(xiàn)輕微波動(dòng)的變化趨勢，說明人工智能領(lǐng)域絕大多數(shù)的技術(shù)主題不是保持一成不變的狀態(tài)，而是隨著時(shí)間的發(fā)展，對相關(guān)技術(shù)的研究熱度有所調(diào)整，從而順應(yīng)時(shí)代的發(fā)展趨勢。另外，通信(T1)、語音識別(T15)、機(jī)器學(xué)習(xí)(T20)這三個(gè)技術(shù)主題的主題強(qiáng)度可以明顯看出其上升的變化趨勢，且技術(shù)主題強(qiáng)度都維持在較高的水平上，說明這三個(gè)技術(shù)主題作為人工智能領(lǐng)域重點(diǎn)關(guān)注的對象，相關(guān)技術(shù)的發(fā)展較為迅猛，由此產(chǎn)生了大量的相關(guān)專利；機(jī)器翻譯(T7)技術(shù)主題的主題強(qiáng)度在前三個(gè)階段中呈現(xiàn)較為平穩(wěn)的變化趨勢，在騰飛期主題強(qiáng)度迅速下降，說明該技術(shù)主題現(xiàn)階段的研究熱度在逐漸降低。

表3 技術(shù)主題各個(gè)階段的主題強(qiáng)度值

3.2.2技術(shù)主題內(nèi)容演化

首先，根據(jù)技術(shù)生命周期的劃分，識別每一階段的技術(shù)主題，結(jié)果如表4所示。

表4 技術(shù)生命周期各階段的技術(shù)主題識別結(jié)果

然后，計(jì)算技術(shù)生命周期相鄰時(shí)間段上技術(shù)主題之間的余弦相似度，根據(jù)人工智能領(lǐng)域技術(shù)主題之間相似度的計(jì)算結(jié)果，本研究設(shè)置相似度閾值為0.7，即技術(shù)主題之間的相似度大于0.7，則存在技術(shù)主題關(guān)聯(lián)關(guān)系。將所得結(jié)果可視化展示，如圖4所示。

從圖4可以看出，大部分技術(shù)主題在技術(shù)生命周期多個(gè)階段中都有出現(xiàn)，呈現(xiàn)繼承、分裂或融合演化關(guān)系，如信號處理、傳感器、自然語言處理、目標(biāo)檢測、語音識別、圖像識別及處理、音視頻處理、通信、機(jī)器學(xué)習(xí)、數(shù)據(jù)存儲(chǔ)、問答系統(tǒng)等技術(shù)主題，這些技術(shù)主題一直是人工智能領(lǐng)域研究的重點(diǎn)內(nèi)容，人工智能的快速發(fā)展離不開這些技術(shù)主題的有效研究。另外，有少部分技術(shù)主題僅在技術(shù)生命周期一個(gè)階段或兩個(gè)階段中出現(xiàn)，如萌芽期的過程控制及文件系統(tǒng)兩個(gè)技術(shù)主題在緩慢發(fā)展期階段消亡；緩慢發(fā)展期新增了分析與挖掘、機(jī)器翻譯、IT+金融及人機(jī)交互四個(gè)技術(shù)主題，同時(shí)分析與挖掘、專家系統(tǒng)這兩個(gè)技術(shù)主題在快速發(fā)展期階段消亡；快速發(fā)展期新增了大數(shù)據(jù)、智能汽車、云及機(jī)器人四個(gè)技術(shù)主題，同時(shí)機(jī)器翻譯技術(shù)主題在騰飛期階段消亡；騰飛期新增了生物特征識別技術(shù)主題。這表示隨著人工智能的發(fā)展，各個(gè)階段的技術(shù)主題基本保持不變，僅有少數(shù)技術(shù)主題會(huì)根據(jù)時(shí)代需要發(fā)生一定的變化，如目前智能汽車、機(jī)器人、生物特征識別等技術(shù)主題成為新興熱點(diǎn)，這也符合人工智能的發(fā)展現(xiàn)狀。

圖4 技術(shù)主題內(nèi)容演化

3.3 技術(shù)預(yù)測

3.3.1基于定量的技術(shù)預(yù)測

通過上述對人工智能專利數(shù)據(jù)進(jìn)行技術(shù)生命周期劃分、核心專利識別、技術(shù)主題識別及演化等的定量分析后，可知目前人工智能的發(fā)展主要經(jīng)過了四個(gè)階段，分別為萌芽期(1985—1999年)、緩慢發(fā)展期(2000—2009年)、快速發(fā)展期(2010—2014年)以及騰飛期(2015—2019年)，現(xiàn)在正處于人工智能的火熱發(fā)展時(shí)期。

從技術(shù)主題識別結(jié)果可知，人工智能領(lǐng)域準(zhǔn)核心專利現(xiàn)階段主要的技術(shù)研究熱點(diǎn)有語音識別、圖像處理/識別、生物特征識別、目標(biāo)檢測、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、自然語言處理、數(shù)字?jǐn)?shù)據(jù)處理/傳輸/存儲(chǔ)、問答系統(tǒng)、通信、信號處理、計(jì)算機(jī)系統(tǒng)、人機(jī)交互、智能醫(yī)療/汽車/金融等，從人工智能領(lǐng)域研究的內(nèi)容角度出發(fā)，可以把這些技術(shù)研究熱點(diǎn)歸納為基礎(chǔ)層(包括硬件、算法模型及數(shù)據(jù))、技術(shù)層(語音識別、圖像識別及目標(biāo)檢測等人工智能相關(guān)技術(shù)的研發(fā))及應(yīng)用層(人工智能相關(guān)技術(shù)在各種領(lǐng)域上的應(yīng)用)三大類別[10]。

從技術(shù)主題演化結(jié)果可知，人工智能領(lǐng)域主要技術(shù)主題的發(fā)展呈現(xiàn)出動(dòng)態(tài)變化的趨勢，絕大多數(shù)技術(shù)主題在人工智能技術(shù)生命周期各個(gè)階段中都存在且研究熱度基本保持穩(wěn)定，呈現(xiàn)出輕微波動(dòng)的變化趨勢，只有少數(shù)技術(shù)主題在技術(shù)生命周期某個(gè)階段上呈現(xiàn)新生、消亡、快速發(fā)展或衰退的變化趨勢。從技術(shù)主題強(qiáng)度演化結(jié)果來看，通信(T1)、語音識別(T15)、機(jī)器學(xué)習(xí)(T20)等技術(shù)主題呈現(xiàn)上升的趨勢，未來需要大力支持與發(fā)展這些技術(shù)主題；從技術(shù)主題內(nèi)容演化結(jié)果來看，生物特征識別、云、大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)、智能醫(yī)療/金融/汽車、機(jī)器人等技術(shù)主題在快速發(fā)展期及騰飛期中呈現(xiàn)新生演化狀態(tài)，表明這些技術(shù)主題在該階段中得到關(guān)注，未來這些技術(shù)主題的研究方向同樣需要引起重視。

3.3.2結(jié)合定量與定性的技術(shù)預(yù)測

在定量分析結(jié)果的基礎(chǔ)上，本研究舉辦了專家研討會(huì)，邀請領(lǐng)域相關(guān)專家重點(diǎn)討論人工智能關(guān)鍵技術(shù)的發(fā)展現(xiàn)狀及預(yù)測領(lǐng)域技術(shù)未來的發(fā)展趨勢。

首先，對人工智能關(guān)鍵技術(shù)的發(fā)展現(xiàn)狀進(jìn)行分析，上述對人工智能技術(shù)研究熱點(diǎn)的定量分析結(jié)果被歸納為基礎(chǔ)層、技術(shù)層及應(yīng)用層三大層面，根據(jù)專家們的意見，對人工智能發(fā)展現(xiàn)狀也從這三個(gè)層面進(jìn)行考慮?；A(chǔ)層作為支撐人工智能發(fā)展的基石，主要包括數(shù)據(jù)、算法模型及硬件(硬件主要包括芯片、傳感器及操作系統(tǒng)等，芯片的主要代表有GPU、FPGA、ASIC等，傳感器主要提供數(shù)據(jù)輸入和人機(jī)交互等作用)三個(gè)方面，這三者也被稱為人工智能的數(shù)據(jù)、算法、算力，三者缺一不可，數(shù)據(jù)的規(guī)模與質(zhì)量決定了算法模型訓(xùn)練結(jié)果的好壞，目前處于大數(shù)據(jù)時(shí)代，產(chǎn)生了海量數(shù)據(jù)可供使用，但數(shù)據(jù)還需進(jìn)一步的清洗、標(biāo)注等處理工作，以保證數(shù)據(jù)的質(zhì)量，硬件基礎(chǔ)為算法模型訓(xùn)練數(shù)據(jù)提供較快的處理速度。技術(shù)層為相關(guān)技術(shù)的研發(fā)，主要包括語音識別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和自然語言處理，這幾項(xiàng)技術(shù)為目前人工智能領(lǐng)域最受關(guān)注的技術(shù)，并衍生出一系列相關(guān)技術(shù)，如深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫模型、人臉識別、圖像識別等。應(yīng)用層為相關(guān)技術(shù)在產(chǎn)業(yè)上的應(yīng)用，人工智能領(lǐng)域的相關(guān)技術(shù)目前正積極和各個(gè)行業(yè)交叉融合、相互促進(jìn)，產(chǎn)生了很多應(yīng)用場景，主要包括智能駕駛、智能醫(yī)療、智能金融、智能教育、智能安防、智能家居、機(jī)器人、智能推薦、新零售、智能客服等，目前幾乎所有行業(yè)都在積極向智能化方向發(fā)展，期望借助人工智能帶來新一輪的發(fā)展與變革。

其次，對人工智能技術(shù)的未來發(fā)展趨勢進(jìn)行探討，綜合專家意見及技術(shù)主題演化結(jié)果，未來十年將會(huì)是人工智能發(fā)展的關(guān)鍵時(shí)期，預(yù)計(jì)到2030年人工智能相關(guān)技術(shù)已經(jīng)發(fā)展成熟，將被廣泛應(yīng)用到生活、生產(chǎn)制造、社會(huì)治理以及國防建設(shè)等，進(jìn)入大規(guī)模產(chǎn)業(yè)化階段。技術(shù)的未來發(fā)展趨勢主要有以下四點(diǎn)：一是新型的硬件基礎(chǔ)需要重點(diǎn)關(guān)注及研發(fā)，尤其是人工智能芯片中的量子芯片，將引領(lǐng)新一輪芯片的發(fā)展與變革?，F(xiàn)存的計(jì)算架構(gòu)難以支撐大規(guī)模數(shù)據(jù)的并行計(jì)算需求，目前人工智能的一些主流企業(yè)已在加緊開發(fā)新型芯片，以加速對海量數(shù)據(jù)進(jìn)行深度學(xué)習(xí)等復(fù)雜算法模型進(jìn)行訓(xùn)練的計(jì)算過程。二是感知智能向認(rèn)知智能方向邁進(jìn)，弱人工智能向強(qiáng)人工智能再到超人工智能方向邁進(jìn)。當(dāng)前人工智能所具備的只有快速計(jì)算、記憶存儲(chǔ)的運(yùn)算能力以及視覺、聽覺等感知能力，但缺乏人類大腦所具有的理解與思考等認(rèn)知能力，也即表示當(dāng)前處于弱人工智能時(shí)期，距離強(qiáng)人工智能及超人工智能時(shí)期還有很長的一段路要走，為此，需要積極研發(fā)各種深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等智能算法，這也是未來需要攻克的技術(shù)難關(guān)。三是新一輪的數(shù)據(jù)革命已經(jīng)到來，需加強(qiáng)對數(shù)據(jù)的管理。當(dāng)前我們正處于大數(shù)據(jù)時(shí)代，各個(gè)領(lǐng)域都產(chǎn)生并記錄了大量可用的數(shù)據(jù)，未來越來越多的事物將被數(shù)據(jù)化，基于數(shù)據(jù)挖掘帶來的價(jià)值將得到進(jìn)一步的體現(xiàn)，未來需要積極搭建數(shù)據(jù)收集、處理、存儲(chǔ)等的一體化、可視化的平臺(tái)，另外，數(shù)據(jù)隱私及信息安全問題需要引起重視。四是人工智能將深度融入到產(chǎn)業(yè)的發(fā)展中，新一輪產(chǎn)業(yè)變革正在到來。目前人工智能已經(jīng)成功運(yùn)用到多個(gè)領(lǐng)域中，但只能做些較為簡單的事情，遠(yuǎn)遠(yuǎn)沒有到達(dá)真正的智能化時(shí)代，未來人工智能將與多個(gè)產(chǎn)業(yè)深度融合，以發(fā)揮人工智能的最大價(jià)值。同時(shí)，根據(jù)人工智能專利數(shù)據(jù)技術(shù)主題識別與演化結(jié)果，專家進(jìn)一步預(yù)測未來10年的技術(shù)研發(fā)熱點(diǎn)，主要有語音識別、人臉識別、圖像識別、模式識別、文本識別、神經(jīng)認(rèn)知、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、自然語言處理、大數(shù)據(jù)、云計(jì)算、5G通信、物聯(lián)網(wǎng)、區(qū)塊鏈、集成電路、芯片、自動(dòng)化、人機(jī)交互、虛擬現(xiàn)實(shí)、智能搜索、個(gè)性化推薦、智能金融/醫(yī)療/駕駛/家居等。將定量分析結(jié)果與專家評價(jià)相結(jié)合，對綜合研究結(jié)論進(jìn)行可視化，如圖5所示。

圖5 人工智能的未來發(fā)展

目前人工智能已經(jīng)上升為國家戰(zhàn)略，國家已經(jīng)先后制定了一系列政策并投入大量資金來發(fā)展人工智能，在行業(yè)的應(yīng)用方面也在積極開展，但是中國人工智能領(lǐng)域核心技術(shù)的實(shí)力還比較薄弱，在所識別的3 262條準(zhǔn)核心專利中，美國擁有準(zhǔn)核心專利數(shù)量排名第一，中國排名則較為靠后，而在全數(shù)據(jù)集中，中國專利申請數(shù)量排名第一，這說明中國專利的申請數(shù)量已經(jīng)居于前列，但位列核心的專利數(shù)量不多。為此，結(jié)合專家座談的意見，本文提出以下幾點(diǎn)建議：一是跟蹤國際發(fā)展態(tài)勢，大力發(fā)展人工智能產(chǎn)業(yè)，加快促進(jìn)產(chǎn)業(yè)智能化發(fā)展；二是制定相關(guān)措施，鼓勵(lì)企業(yè)以核心技術(shù)為目標(biāo)進(jìn)行科技創(chuàng)新，并加大相關(guān)技術(shù)研發(fā)投入；三是加強(qiáng)高端人才建設(shè)，倡導(dǎo)高校積極開設(shè)以基礎(chǔ)層與技術(shù)層相結(jié)合的人工智能相關(guān)課程；四是制定人工智能相關(guān)標(biāo)準(zhǔn)體系，開展核心技術(shù)創(chuàng)新應(yīng)用試點(diǎn)示范，推進(jìn)人工智能向高端發(fā)展；五是積極開展國際合作，彌補(bǔ)我國在核心技術(shù)上存在的薄弱環(huán)節(jié)。

4 研究結(jié)論

本文以核心專利技術(shù)主題識別與演化分析為出發(fā)點(diǎn)，以技術(shù)預(yù)測為落腳點(diǎn)，研究熱點(diǎn)技術(shù)及技術(shù)的未來發(fā)展趨勢。以德溫特專利數(shù)據(jù)庫為數(shù)據(jù)源、以人工智能領(lǐng)域?yàn)檠芯繉ο螅O(shè)計(jì)了研究框架與研究方法，并實(shí)證研究，以驗(yàn)證本研究所提方法的可行性與可靠性。

本文一方面將核心專利識別、技術(shù)主題識別與演化分析相結(jié)合，以有效縮減海量專利文獻(xiàn)集挖掘與分析的難度及工作量，同時(shí)更加突出重點(diǎn)地跟蹤與預(yù)測技術(shù)發(fā)展態(tài)勢。研究結(jié)果較為準(zhǔn)確、快速，且對于設(shè)備環(huán)境要求不高，所以對于大規(guī)模數(shù)據(jù)，可以首先識別出核心專利，然后基于核心專利數(shù)據(jù)集進(jìn)行技術(shù)主題識別與演化分析，這為現(xiàn)有相關(guān)研究提供一個(gè)新的思路。另一方面，以定性定量兩種方法的結(jié)合使用進(jìn)行技術(shù)預(yù)測，綜合考慮了兩種方法的優(yōu)點(diǎn)，能夠更為清晰、準(zhǔn)確地刻畫技術(shù)未來的發(fā)展方向，研究結(jié)論更具可靠性。

然而，在研究過程中仍然存在一定的局限性，未來可進(jìn)一步開展研究：一是本文在數(shù)據(jù)的獲取上，從具有代表性的專利數(shù)據(jù)源上收集相關(guān)專利數(shù)據(jù)，技術(shù)相關(guān)信息不僅存在于專利數(shù)據(jù)源上，也存在于學(xué)術(shù)論文、科技輿情、基金及科技報(bào)告等數(shù)據(jù)源上，僅以專利數(shù)據(jù)進(jìn)行技術(shù)主題識別與演化分析，從而進(jìn)行技術(shù)預(yù)測，對于技術(shù)的發(fā)展?fàn)顩r難以全面掌握，研究結(jié)論的準(zhǔn)確性有待提高。未來可利用多種數(shù)據(jù)源多方面、多角度地對技術(shù)主題識別與演化進(jìn)行更全面的研究，如可以使用美國專利商標(biāo)局專利數(shù)據(jù)庫、中國專利全文數(shù)據(jù)庫等來進(jìn)行主題識別，或單獨(dú)分析某一技術(shù)主題，以期帶來更為準(zhǔn)確、可信的研究結(jié)論。二是從技術(shù)主題識別的結(jié)果來看，目前選擇的是輸出彼此之間相似度大于0.7的10個(gè)主題詞，主題詞包含的信息還比較單一，無法具體顯示主題詞之間的關(guān)聯(lián)性，在后期研究中可以選擇輸出短語或者關(guān)鍵詞，不斷豐富技術(shù)主題識別的結(jié)果。三是本文在技術(shù)主題的識別上，基于LDA主題模型、Word2vec詞向量模型兩種模型簡單的結(jié)合識別技術(shù)主題，識別結(jié)果基本能夠反映現(xiàn)實(shí)，但目前基于神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)的主題挖掘已經(jīng)得到大量的研究并取得較好的結(jié)果，如LSTM(Long Short Term Memory)模型、K-means聚類算法等的使用，未來可考慮利用這些模型或技術(shù)研究技術(shù)主題的識別。另外，將時(shí)間、機(jī)構(gòu)、IPC分類號等因素與主題模型融合進(jìn)行研究也是目前關(guān)注熱點(diǎn)，也可開展對比研究，如將基于技術(shù)模型的技術(shù)主題識別和基于IPC小類的技術(shù)主題識別進(jìn)行對比分析，將基于技術(shù)模型的技術(shù)主題演化與基于IPC小類的技術(shù)主題演化進(jìn)行對比分析。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放