亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法

        2020-08-03 10:05:26易成岐童楠楠王建冬
        計算機工程與應(yīng)用 2020年15期
        關(guān)鍵詞:文本

        易成岐,郭 鑫 ,2,童楠楠,3,竇 悅,陳 東,王建冬

        1.國家信息中心 大數(shù)據(jù)發(fā)展部,北京 100045

        2.北京大學 信息管理系,北京 100871

        3.中國人民大學 信息資源管理學院,北京 100872

        1 引言

        當今,世界新一輪科技革命和產(chǎn)業(yè)變革正在加速演進,以互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等為代表的新一輪信息技術(shù)不斷突破,深刻影響著全人類生產(chǎn)方式的進步及思維模式的轉(zhuǎn)變。近年來,我國科學技術(shù)事業(yè)發(fā)展也取得了很大成就,科技創(chuàng)新能力顯著提升。在此背景下,我國既面臨著彎道超車的千載難逢歷史機遇,又面臨著差距繼續(xù)被拉大的嚴峻挑戰(zhàn)。因此,全面把握并精準感知特定領(lǐng)域創(chuàng)新態(tài)勢至關(guān)重要,具有重要戰(zhàn)略意義和指導(dǎo)作用,從國家層面看,能夠有效分析創(chuàng)新領(lǐng)域的戰(zhàn)略布局、對比評估創(chuàng)新態(tài)勢發(fā)展差異、科學制定創(chuàng)新體系提升策略等;從企業(yè)層面看,能夠有效發(fā)現(xiàn)并挖掘創(chuàng)新技術(shù)的空白點、尋找更適合企業(yè)技術(shù)創(chuàng)新發(fā)展的切入點、形成更有針對性的企業(yè)二次創(chuàng)新活力。

        專利作為國家自主創(chuàng)新成果的重要載體,是全社會科技創(chuàng)新研究成果和新技術(shù)產(chǎn)品研發(fā)的重要信息來源,專利數(shù)據(jù)分析不僅可以了解特定領(lǐng)域的技術(shù)水平和研發(fā)能力[1],還能對技術(shù)創(chuàng)新態(tài)勢進行全面地研究和評估[2]。因此,如何科學有效地開發(fā)利用專利數(shù)據(jù)并提取出其背后蘊藏的創(chuàng)新態(tài)勢,是產(chǎn)業(yè)界和學術(shù)界共同面臨的熱點問題。

        現(xiàn)有的研究成果主要集中在對專利的數(shù)量、引用和關(guān)聯(lián)關(guān)系開展分析[3],其中以專利數(shù)量的統(tǒng)計分析居多,即選取特定領(lǐng)域?qū)@纳暾垥r間分布、地域(例如國別、省份、城市等)分布、技術(shù)領(lǐng)域分布等進行統(tǒng)計,并開展橫向或縱向?qū)Ρ确治鯷4-5]。專利引用分析方法主要源于文獻計量學,即對專利文獻之間的引文關(guān)系進行探索,如Li等對專利引文網(wǎng)絡(luò)進行分析,揭示了研究領(lǐng)域、機構(gòu)、國家之間的知識創(chuàng)新轉(zhuǎn)移過程[6]。專利關(guān)聯(lián)分析同樣關(guān)注專利之間的聯(lián)系,但其不局限于引文關(guān)系,還包括學科聯(lián)系、主題聯(lián)系以及專利主體間(例如國家、機構(gòu)、個人等)聯(lián)系等。例如,商琦等以專利主題聯(lián)系為切入點,通過文本聚類得到區(qū)塊鏈的五類技術(shù)主干[7]。胡欣悅等以專利主體聯(lián)系為切入點,通過社會網(wǎng)絡(luò)分析方法對華為公司各研發(fā)單元的空間分布及國際化合作網(wǎng)絡(luò)進行分析,發(fā)現(xiàn)華為國際化研發(fā)網(wǎng)絡(luò)呈現(xiàn)以深圳和美國為中心的“核心—半邊緣”結(jié)構(gòu)[8]。

        總體來看,目前對專利數(shù)據(jù)分析的研究主要集中在專利外部基本屬性信息的統(tǒng)計分析,如專利申請時間、所屬機構(gòu)、引用關(guān)系等,而基于專利內(nèi)容層面的研究并不多,且普遍不夠深入。

        考慮到專利網(wǎng)絡(luò)作為復(fù)雜網(wǎng)絡(luò)中重要的組成部分,其具有社團結(jié)構(gòu)特性。即專利網(wǎng)絡(luò)的整體由若干專利團體組成,團體之間的連接相對稀疏但團體內(nèi)部的連接則相對稠密。因此,本研究擬基于專利文本數(shù)據(jù),深入到專利內(nèi)容層面構(gòu)建專利網(wǎng)絡(luò)并引入社團發(fā)現(xiàn)模型[9],提出一種基于復(fù)雜網(wǎng)絡(luò)的創(chuàng)新態(tài)勢研判算法。該算法能夠有效結(jié)合圖網(wǎng)絡(luò)拓撲中所蘊藏的結(jié)構(gòu)性關(guān)系,從專利網(wǎng)絡(luò)中解析得到多個子團體及各子團體特征,對創(chuàng)新態(tài)勢分析與研判具有十分重要的意義。

        綜上,本文的主要貢獻及創(chuàng)新點主要包含以下三個方面:

        (1)利用發(fā)明專利標題和摘要等文本信息,通過測算專利之間的文本相似度,將專利文本數(shù)據(jù)轉(zhuǎn)換成為無向加權(quán)專利網(wǎng)絡(luò)圖。其中,為了緩解專利標題和摘要短文本引發(fā)的文本向量稀疏問題,本文引入了非監(jiān)督的稀疏向量稠密化方法。在融合啟發(fā)式社團發(fā)現(xiàn)模型的基礎(chǔ)上,本文提出了一種創(chuàng)新態(tài)勢研判算法。

        (2)為了解決專利網(wǎng)絡(luò)構(gòu)建過程中的相似度閾值自動化選擇問題,本文通過實驗驅(qū)動的方法,對比分析了專利網(wǎng)絡(luò)相似度閾值與專利網(wǎng)絡(luò)中常用統(tǒng)計指標的變化關(guān)系,最終選用平均聚類系數(shù)這一指標實現(xiàn)了最優(yōu)相似度閾值的自動化判定,能夠?qū)崿F(xiàn)專利網(wǎng)絡(luò)構(gòu)建過程中的實時迭代自反饋效果。

        (3)本文抽取了我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域真實發(fā)明專利數(shù)據(jù)進行了數(shù)據(jù)實驗,驗證了方法的有效性并分析了數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢,同時對實驗結(jié)果進行了闡述及解讀。

        2 基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判過程及算法

        2.1 創(chuàng)新態(tài)勢研判基本思路

        基于發(fā)明專利題目和摘要等文本數(shù)據(jù),結(jié)合社團發(fā)現(xiàn)模型分析創(chuàng)新態(tài)勢的基本思路如圖1所示,主要分為三個階段:

        圖1 利用社團發(fā)現(xiàn)模型分析創(chuàng)新態(tài)勢的基本思路

        首先是專利本體階段,其中,V代表發(fā)明專利節(jié)點,在此初始階段各發(fā)明專利相對獨立,每個發(fā)明專利節(jié)點包含專利申請?zhí)?、專利標題、專利摘要、申請日期、公開日期、申請人、發(fā)明人等相關(guān)基本屬性信息。

        第二階段為專利網(wǎng)絡(luò)構(gòu)建階段,利用發(fā)明專利標題及其摘要等文本信息,通過測算發(fā)明專利之間的文本相似度,可根據(jù)專利之間的相似程度構(gòu)建專利間的相似邊E(下文會詳述專利網(wǎng)絡(luò)構(gòu)建方法及過程),因此,在此階段可將孤立專利節(jié)點構(gòu)建成為無向加權(quán)圖G。

        第三階段為創(chuàng)新領(lǐng)域分析研判階段,在此階段可利用復(fù)雜網(wǎng)絡(luò)領(lǐng)域的社團發(fā)現(xiàn)模型和網(wǎng)絡(luò)拓撲布局算法對無向加權(quán)專利網(wǎng)絡(luò)圖G進行社團結(jié)構(gòu)劃分,其中,社團發(fā)現(xiàn)模型可以更準確地自動化理解專利網(wǎng)絡(luò)的組織關(guān)系、拓撲結(jié)構(gòu)與動力學特性。

        2.2 專利網(wǎng)絡(luò)自動化構(gòu)建方法

        通過測算發(fā)明專利之間的文本相似度,將特定領(lǐng)域的n條發(fā)明專利數(shù)據(jù)構(gòu)建為一個無向加權(quán)圖G={V,E,W}(|V|≤n)。其中,如果兩個發(fā)明專利的文本相似度超過一定閾值(閾值選擇策略詳見下節(jié)),則認為兩者存在相似性關(guān)系,即兩條專利之間存在一條無向邊,否則無邊。G代表特定領(lǐng)域的發(fā)明專利網(wǎng)絡(luò)圖,V代表專利網(wǎng)絡(luò)圖G中的發(fā)明專利節(jié)點,E代表發(fā)明專利節(jié)點間的無向邊;W代表發(fā)明專利之間無向邊的權(quán)重,權(quán)重值為文本相似度,取值歸一化至0~1之間。

        其中,由于將n條發(fā)明專利轉(zhuǎn)換為無向加權(quán)圖G的時間復(fù)雜度為O(n2),為了節(jié)省運算時間成本,本文只考慮利用發(fā)明專利標題和摘要計算文本相似度,為了緩解短文本造成的文本向量稀疏化問題,本文采用一種非監(jiān)督的稀疏向量稠密化方法進行相似度測算[10],區(qū)別于傳統(tǒng)余弦相似度計算方法中將專利標題文本轉(zhuǎn)換為x=(x1,x2,…,xV)T和y=(y1,y2,…,yV)T兩個等長的詞向量(V代表詞表長度),本文首先將每條發(fā)明專利標題重寫為非等長詞向量x={xa1,xa2,…,xanx}和 y={yb1,yb2,…,ybny},其中,ai和bj代表x和y向量中非零權(quán)重詞語的索引項(1≤ai,bj≤V),xai和ybj代表詞匯表中詞語的關(guān)聯(lián)權(quán)重,另外,假設(shè)x和y向量中分別存在nx和ny個非零權(quán)重詞語,則余弦相似度計算公式可改寫為:

        其主要思想是,為了計算每個詞語之間相似性的平均相似度,可以較大程度地將發(fā)明專利標題稀疏向量進行稠密化處理,其中,?(ai,bj)代表非零權(quán)重詞語ai和bj之間的相似度。關(guān)于詞語稠密化表示方法,本文采用了淺層神經(jīng)網(wǎng)絡(luò)模型word2vec方法[11-12],其中,利用2016年1月至2019年4月期間365.3萬條國內(nèi)部分高新技術(shù)領(lǐng)域發(fā)明專利標題及摘要文本數(shù)據(jù),采用默認參數(shù)即窗口大小為5的CBOW(連續(xù)詞袋)模型進行訓(xùn)練。對于每個詞匯,本文統(tǒng)一映射為200維的詞向量,考慮到RBF(徑向基函數(shù))本質(zhì)是一種相似度的測量,而且是在原始空間的相似度測量方式,因此本文使用RBF核函數(shù)作為后續(xù)實驗中兩個詞向量a和b的相似度計算方法:

        2.3 專利相似度閾值選擇策略

        在構(gòu)建專利網(wǎng)絡(luò)的過程中,對發(fā)明專利相似度閾值δ的選擇尤為關(guān)鍵,會直接影響專利網(wǎng)絡(luò)密集或松散的程度,閾值越小代表符合閾值的專利節(jié)點篩選策略越寬松,會導(dǎo)致專利網(wǎng)絡(luò)擁有更多的節(jié)點及邊;閾值越大則代表專利節(jié)點篩選策略越苛刻,專利網(wǎng)絡(luò)則會擁有更少的節(jié)點及邊。但是由于相似度閾值δ并不是一個常數(shù),而是會受到專利領(lǐng)域分布范圍、專利數(shù)量多少等諸多因素影響,因此,本文擬將專利網(wǎng)絡(luò)的相似度閾值與專利網(wǎng)絡(luò)中常用統(tǒng)計指標的變化關(guān)系進行對比分析,希望能夠找到一種統(tǒng)計指標實現(xiàn)最優(yōu)相似度閾值δ的自動化判定,從而滿足專利網(wǎng)絡(luò)構(gòu)建過程中的實時迭代自反饋效果。

        在此階段,本文通過以數(shù)據(jù)實驗為驅(qū)動的方法,對比分析了專利網(wǎng)絡(luò)相似度閾值δ與專利網(wǎng)絡(luò)平均度、平均路徑長度、平均聚類系數(shù)、網(wǎng)絡(luò)密度、介數(shù)中心性、緊密中心性、特征向量中心性、同配系數(shù)等復(fù)雜網(wǎng)絡(luò)中常用統(tǒng)計指標的變化關(guān)系,分析發(fā)現(xiàn)專利網(wǎng)絡(luò)相似度閾值δ與平均聚類系數(shù)|C|的變化呈現(xiàn)線性關(guān)系,其中,部分專利網(wǎng)絡(luò)(我國數(shù)字中國領(lǐng)域?qū)@?、北京市西城區(qū)專利、江蘇省高新技術(shù)領(lǐng)域?qū)@?、深圳市高新技術(shù)領(lǐng)域?qū)@?、浙江省高新技術(shù)領(lǐng)域?qū)@┫嗨贫乳撝蹬c平均聚集系數(shù)對比關(guān)系如圖2所示。

        圖2 部分領(lǐng)域?qū)@W(wǎng)絡(luò)相似度閾值與平均聚集系數(shù)對比

        因為在復(fù)雜網(wǎng)絡(luò)中,如果節(jié)點V0與節(jié)點V1相連,節(jié)點V1與節(jié)點V2相連,那么節(jié)點V2有很大概率與V0相連。為了量化該特性,聚集系數(shù)也稱為聚類系數(shù),表示在復(fù)雜網(wǎng)絡(luò)中與同一節(jié)點相連的節(jié)點們互相連接的程度[13]。節(jié)點Vi的聚集系數(shù)Ci可以表示為:

        其中,ki表示與節(jié)點Vi相連接的節(jié)點數(shù)量,ei表示節(jié)點Vi的ki個相連節(jié)點集合V={V1i,V2i,…,Vki}中存在互相連接的邊的數(shù)量。由式(3)可知,對于有向圖,ki個節(jié)點存在互相連接邊的數(shù)量上限為ki(ki-1),而對于類似于專利網(wǎng)絡(luò)的無向圖,ki個節(jié)點存在互相連接邊的數(shù)量上限為ki(ki-1)2。

        通常平均聚類系數(shù)|C|能夠以全局視角量化復(fù)雜網(wǎng)絡(luò)中節(jié)點聚集程度[14]。平均聚集系數(shù)|C|定義為所有節(jié)點的聚集系數(shù)的平均值,取值范圍在0至1之間,可表示為:

        其中,N代表復(fù)雜網(wǎng)絡(luò)中節(jié)點的數(shù)量,Ci代表節(jié)點Vi的聚集系數(shù)。

        因此,可以在選擇相似度閾值過程中實時反饋專利網(wǎng)絡(luò)的平均聚類系數(shù)|C|值,將平均聚類系數(shù)|C|接近平滑時的臨界點所對應(yīng)的相似度閾值作為專利網(wǎng)絡(luò)的最優(yōu)閾值δ。

        2.4 啟發(fā)式社團發(fā)現(xiàn)模型

        考慮到Modularity(模塊度)是一種衡量社團發(fā)現(xiàn)質(zhì)量的評價方法[15],Modularity會保證基準網(wǎng)絡(luò)與現(xiàn)有網(wǎng)絡(luò)有著相同的度分布的前提下,通過對比基準網(wǎng)絡(luò)與現(xiàn)有網(wǎng)絡(luò)在相同社團劃分后的連接密度來度量社團發(fā)現(xiàn)算法的準確程度,具有很強權(quán)威性,但由于計算Modularity屬于NP-完全問題,因此本文采用一種啟發(fā)式Modularity計算方法作為社團發(fā)現(xiàn)模型[16],具體計算公式為:

        其物理意義是計算專利網(wǎng)絡(luò)中同一社團內(nèi)部邊的比例與同樣度分布下基準網(wǎng)絡(luò)內(nèi)部邊比例的期望值之差。其中,m代表專利網(wǎng)絡(luò)中邊的數(shù)量,∑inside代表社團C中內(nèi)部邊的數(shù)量,∑total代表劃入社團C中節(jié)點的邊的數(shù)量,ki代表了與節(jié)點i相關(guān)邊的數(shù)量,ki,inside代表從節(jié)點i連到社團C中節(jié)點的數(shù)量。

        該算法主要思想是首先合并社團,并將每個節(jié)點單獨看作一個社團,基于Modularity增量最大化標準決定需要被合并的社團。此外,將上一步驟已發(fā)現(xiàn)的所有社團看成單獨節(jié)點,并且構(gòu)建新的網(wǎng)絡(luò),重復(fù)運行上述步驟后直到Modularity不再增長,則得到社團發(fā)現(xiàn)的近似最優(yōu)解,專利網(wǎng)絡(luò)最終形態(tài)為G={V,E,C},其中C代表專利節(jié)點V所屬的特定社團。

        2.5 基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法

        綜合上述分析,本文融合了稀疏向量稠密化文本相似度測算方法、專利相似度閾值選擇策略和啟發(fā)式社團發(fā)現(xiàn)模型,提出了一種基于專利數(shù)據(jù)的創(chuàng)新態(tài)勢研判算法,如算法1所示。

        算法1基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法

        輸入:特定領(lǐng)域?qū)@骷殧?shù)據(jù)V={V1,V2,…,Vn}和初始閾值δ=0.1

        輸出:已形成若干社團的專利網(wǎng)絡(luò)G={V,E,C}

        開始

        1.FunctionpatentNetwork(V,δ)do//專利網(wǎng)絡(luò)構(gòu)建函數(shù)

        2. fori:=1tondo

        3. forj:=i+1tondo

        4. 利用公式(1)和公式(2)計算Vi和Vj文本相似度sim(i,j);

        5. ifsim(i,j)>δthen//判斷相似度是否大于閾值

        6.V←Vi,V←Vj;//將Vi和Vj添加至專利網(wǎng)絡(luò)

        7.E←Eij;//將Vi和Vj之間的邊添加至專利網(wǎng)絡(luò)

        8. end if

        9. end for

        10. end for

        11. 利用公式(4)計算當前專利網(wǎng)絡(luò)的平均聚集系數(shù)|C|;

        12.ifisSmoothing(|C|)then//判斷當前|C|是否已平滑

        13. 生成專利網(wǎng)絡(luò)G={V,E};

        14. break;

        15. else

        16.δ+=0.1;

        17.patentNetwork(V,δ);

        18.end FunctionpatentNetwork(V,δ)

        19. 利用公式(5)對專利網(wǎng)絡(luò)進行社團發(fā)現(xiàn)測算;

        20. 輸出已形成若干社團的專利網(wǎng)絡(luò)G={V,E,C}。

        3 我國大數(shù)據(jù)及數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢分析研判

        3.1 大數(shù)據(jù)及數(shù)字中國領(lǐng)域?qū)@W(wǎng)絡(luò)構(gòu)建

        為了驗證上述方法的有效性以及分析研判我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢,本文從國家發(fā)展改革委大數(shù)據(jù)中心已掌握的專利明細數(shù)據(jù)中,抽取了公開日期為2016年1月至2019年4月期間國內(nèi)部分高新技術(shù)領(lǐng)域發(fā)明專利標題及摘要文本數(shù)據(jù)作為基礎(chǔ)專利數(shù)據(jù)(共365.3萬條)?;诖藬?shù)據(jù),利用大數(shù)據(jù)及數(shù)字中國領(lǐng)域關(guān)鍵詞對專利標題及摘要文本進行字符串精準匹配,并將匹配到的專利數(shù)據(jù)利用前文所述基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法進行專利網(wǎng)絡(luò)建模。建模后得到我國數(shù)字中國領(lǐng)域?qū)@W(wǎng)絡(luò)共11 622個節(jié)點及81 120條邊,平均度為13.96。其度分布遵循著較好的冪律分布規(guī)律,如圖3所示。

        圖3 我國數(shù)字中國領(lǐng)域?qū)@W(wǎng)絡(luò)度分布

        此外,我國大數(shù)據(jù)領(lǐng)域?qū)@W(wǎng)絡(luò)共包含4 721個節(jié)點及47 521條邊,平均度為20.13。如圖4所示,由于大數(shù)據(jù)領(lǐng)域限定范圍相對更小,因此其度分布并沒有呈現(xiàn)十分明顯的冪律分布規(guī)律,更接近于伽馬分布。

        圖4 我國大數(shù)據(jù)領(lǐng)域?qū)@W(wǎng)絡(luò)度分布

        3.2 大數(shù)據(jù)及數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢分析

        為使我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢顯示效果更直觀,本文利用Gephi[17]開源軟件對其進行了可視化展示,并對社團發(fā)現(xiàn)結(jié)果進行了節(jié)點著色處理,同時采用度分布結(jié)果進行了節(jié)點的大小調(diào)整,并利用Hu[18]提出的算法對其進行了自動化布局。其中每個社團的標簽是利用TF-IDF算法從社團內(nèi)部專利標題文本中提取具有代表性的關(guān)鍵詞所進行的標注,我國數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢圖譜最終可視化效果如圖5所示。

        從圖5可以發(fā)現(xiàn),數(shù)字中國領(lǐng)域技術(shù)創(chuàng)新初步形成了人工智能與機器人、智能家居、數(shù)據(jù)存儲、控制系統(tǒng)、移動終端、物聯(lián)網(wǎng)與傳感器、計算機、數(shù)據(jù)處理等8個創(chuàng)新社團,已形成以生產(chǎn)生活數(shù)字化為內(nèi)核,大數(shù)據(jù)技術(shù)為依托,人工智能(AI)、集成電路(IC)和物聯(lián)網(wǎng)(IOT)等“3I”技術(shù)為核心領(lǐng)域的數(shù)字中國技術(shù)創(chuàng)新格局。

        圖5 我國數(shù)字中國領(lǐng)域創(chuàng)新態(tài)勢圖譜

        通過計算平均最短路徑來量化社團間的融合程度(平均最短路徑越數(shù)值越小則代表社團間融合度越高),進一步分析顯示,在應(yīng)用方面的核心領(lǐng)域(智能家居、控制系統(tǒng)、移動終端)與幾大支撐部分(人工智能與機器人、物聯(lián)網(wǎng)與傳感器、計算機與智能硬件、數(shù)據(jù)存儲與數(shù)據(jù)處理)的融合度均有不同。融合度測算對比結(jié)果如圖6所示。

        圖6 三大核心領(lǐng)域與其他應(yīng)用領(lǐng)域的融合度對比

        可以發(fā)現(xiàn),三大核心領(lǐng)域與人工智能、數(shù)據(jù)處理、計算機、物聯(lián)網(wǎng)等領(lǐng)域的平均最短路徑長度分別為5.31、5.81、6.01和6.29。其中,與人工智能領(lǐng)域的平均最短路徑長度最小,說明領(lǐng)域間的融合度最高;而與物聯(lián)網(wǎng)領(lǐng)域的平均最短路徑數(shù)值最大,則表示領(lǐng)域間融合度最低,這表明現(xiàn)階段與核心領(lǐng)域數(shù)字產(chǎn)業(yè)化融合較好的領(lǐng)域是人工智能領(lǐng)域,該領(lǐng)域為數(shù)字經(jīng)濟產(chǎn)業(yè)落地注入了強勁的動力。

        此外,我國大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢圖譜如圖7所示,我國大數(shù)據(jù)領(lǐng)域創(chuàng)新呈現(xiàn)出以技術(shù)型專利為中心,逐步向應(yīng)用型專利擴散態(tài)勢。其中,技術(shù)型專利涵蓋了大數(shù)據(jù)全生命周期的重要鏈條,呈現(xiàn)存儲、安全、檢索、計算、分析“五足鼎立”之勢。同時,大數(shù)據(jù)分析方法創(chuàng)新正逐漸向人工智能方法延伸。另外,從圖7可知我國目前大數(shù)據(jù)采集領(lǐng)域?qū)@员容^匱乏,表明數(shù)據(jù)資源雖為大數(shù)據(jù)領(lǐng)域的重要基石,但目前大數(shù)據(jù)領(lǐng)域公開的采集方法仍相對較少。

        圖7 我國大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢圖譜

        4 結(jié)束語

        本文基于發(fā)明專利文本明細數(shù)據(jù),通過非監(jiān)督的稀疏向量稠密化方法測算專利之間的文本相似度,并將其構(gòu)建成為無向加權(quán)圖,引入社團發(fā)現(xiàn)模型提出一種基于啟發(fā)式社團發(fā)現(xiàn)模型的創(chuàng)新態(tài)勢研判算法。為解決文本相似度計算過程中閾值選擇問題,本文對比分析了專利網(wǎng)絡(luò)相似度閾值與復(fù)雜網(wǎng)絡(luò)中常用統(tǒng)計指標的變化關(guān)系,最終選用平均聚類系數(shù)這一指標實現(xiàn)了最優(yōu)相似度閾值的自動化判定,從而實現(xiàn)專利網(wǎng)絡(luò)構(gòu)建過程中的實時迭代自反饋效果。基于上述算法對我國數(shù)字中國及大數(shù)據(jù)領(lǐng)域創(chuàng)新態(tài)勢分析發(fā)現(xiàn),我國數(shù)字中國領(lǐng)域創(chuàng)新初步形成了機器人、智能家居、數(shù)據(jù)存儲、控制系統(tǒng)、移動終端、物聯(lián)網(wǎng)、數(shù)據(jù)處理等8個創(chuàng)新社團,并形成了以“3I”技術(shù)為核心領(lǐng)域的數(shù)字中國創(chuàng)新格局,應(yīng)用層面的智能家居、控制系統(tǒng)、移動終端三大核心領(lǐng)域與人工智能領(lǐng)域的融合度最高(平均最短路徑長度5.31),而與物聯(lián)網(wǎng)領(lǐng)域融合度最低(平均最短路徑長度6.29)。此外,我國大數(shù)據(jù)領(lǐng)域技術(shù)型專利涵蓋了大數(shù)據(jù)全生命周期的重要鏈條,并呈現(xiàn)出以技術(shù)型專利為中心,逐步向應(yīng)用型專利擴散態(tài)勢。

        未來工作中,一方面可以基于專利網(wǎng)絡(luò)的時序演化特性研究基于時序變化的創(chuàng)新態(tài)勢預(yù)測方法,另一方面,由于當前算法的時間復(fù)雜度仍相對較高,面對大規(guī)模發(fā)明專利數(shù)據(jù)時的處理時間仍然較長,可以進一步研究該算法的時間復(fù)雜度壓縮方法。

        猜你喜歡
        文本
        文本聯(lián)讀學概括 細致觀察促寫作
        重點:論述類文本閱讀
        重點:實用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        免费人成再在线观看网站| 一区二区三区美女免费视频| 99久久免费只有精品国产| 国产午夜三级一区二区三| 国产精品久久中文字幕第一页| 国产精品一区二区三区女同| 国产极品少妇一区二区| 无码国产精品一区二区免费模式| 99热视热频这里只有精品| 国产精品av免费网站| 亚洲免费国产中文字幕久久久 | a级黑人大硬长爽猛出猛进| 日本国产一区二区三区在线观看| 精品国产三区在线观看| 国产美女爽到喷出水来视频| 精品成人乱色一区二区| 国产精品亚洲A∨无码遮挡| 日韩美女av一区二区| 蜜臀av999无码精品国产专区| 亚洲免费观看| 最新国产主播一区二区| 99re6在线视频精品免费下载| 国产午夜福利在线播放| 国产成品精品午夜视频| 全部亚洲国产一区二区| 99久久精品免费观看国产| 91av国产视频| 好看的国内自拍三级网站| 精品香蕉一区二区三区| 在教室伦流澡到高潮h麻豆| 北岛玲精品一区二区三区| 美女人妻中出日本人妻| 亚洲成av人在线观看天堂无码| 无码一区久久久久久久绯色AV| 亚洲av男人的天堂在线| 国产精品99无码一区二区| 久青草国产在线观看| 熟女人妻一区二区中文字幕| 国产精品理论片在线观看| 国产午夜福利精品久久2021| 日韩最新av一区二区|