陳玲 林平 段堯清
摘要:[目的/意義]在產(chǎn)業(yè)鏈視角下,以虛擬現(xiàn)實(shí)技術(shù)為例,構(gòu)建VR專利產(chǎn)業(yè)鏈語(yǔ)料庫(kù),挖掘中國(guó)VR專利的技術(shù)主題、研發(fā)熱點(diǎn)和未來(lái)發(fā)展趨勢(shì)。[方法/過(guò)程]首先,利用Python爬取VR領(lǐng)域的專利文本,通過(guò)數(shù)據(jù)清洗得到有效語(yǔ)料庫(kù);然后,結(jié)合IPC分類號(hào)和K-means聚類算法,構(gòu)建并驗(yàn)證VR專利產(chǎn)業(yè)鏈;最后,基于TF-IDF算法和LDA主題模型,識(shí)別出產(chǎn)業(yè)鏈視角下中國(guó)VR專利的核心技術(shù)主題及其綜合強(qiáng)度、技術(shù)研發(fā)熱點(diǎn)和未來(lái)趨勢(shì)。[結(jié)果/結(jié)論]當(dāng)前中國(guó)VR產(chǎn)業(yè)鏈各環(huán)節(jié)的專利比例不均衡,上游研發(fā)最熱門(mén),其次是下游應(yīng)用,最薄弱的是中游制作。主題挖掘方面,上游熱點(diǎn)為軟件研發(fā),中游熱點(diǎn)為影視制作,下游熱點(diǎn)為醫(yī)療、教育、娛樂(lè)應(yīng)用。未來(lái)趨勢(shì)方面,產(chǎn)業(yè)鏈上游將以電數(shù)字?jǐn)?shù)據(jù)處理、光學(xué)元件、圖像通信等技術(shù)為主流,中游將以車輛部件、動(dòng)力裝置、減振裝置等技術(shù)為主流,下游將以室內(nèi)游戲、醫(yī)學(xué)診斷、鑒定等技術(shù)為主流。
關(guān)鍵詞:K-means聚類算法? ?LDA主題模型? 技術(shù)主題演化? 文本挖掘? VR(虛擬現(xiàn)實(shí))
分類號(hào):G250
DOI:10.13266/j.issn.2095-5472.2020.013
引用格式:陳玲, 林平, 段堯清. 產(chǎn)業(yè)鏈視角下結(jié)合K-means和LDA的專利技術(shù)主題挖掘與趨勢(shì)分析 ——以虛擬現(xiàn)實(shí)技術(shù)為例[J/OL]. 知識(shí)管理論壇, 2020, 5(3): 135-146[引用日期]. http://www.kmf.ac.cn/p/208/.
1? 引言
專利是衡量科學(xué)技術(shù)發(fā)展的重要指標(biāo),專利內(nèi)容挖掘是提高科學(xué)技術(shù)競(jìng)爭(zhēng)力的主要途徑之一。專利內(nèi)容挖掘涉及專利分類、專利聚類、主題識(shí)別、技術(shù)趨勢(shì)分析等方面,其中專利技術(shù)主題分析是其研究的核心所在。專利技術(shù)主題分析聚焦于識(shí)別專利文本的主題(如對(duì)主題進(jìn)行分類、構(gòu)建主題間的相互關(guān)系、預(yù)測(cè)主題的發(fā)展趨勢(shì)等),對(duì)技術(shù)研發(fā)內(nèi)容具有高度的概括性和代表性[1]。隨著深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的興起,文本挖掘被越來(lái)越廣泛地應(yīng)用在技術(shù)專利主題分析中,其中以LDA(Latent Dirichlet Allocation)主題模型尤為突出。專利技術(shù)主題分析方法主要是抽取專利文獻(xiàn)標(biāo)題、摘要及技術(shù)要點(diǎn)中的技術(shù)特征詞,利用文本挖掘方法選擇獲得主題詞,建立主題詞之間的共現(xiàn)關(guān)聯(lián)關(guān)系,從而聚類獲得技術(shù)主題[2]。專利技術(shù)主題分析常用的方法包括:①利用專利的分類屬性作為其技術(shù)主題;②通過(guò)專利共現(xiàn)網(wǎng)絡(luò)和引用關(guān)系為專利聚類;③使用SAO(subject -action -object)結(jié)構(gòu)語(yǔ)義相似度識(shí)別、主題模型或主題聚類等方式從專利等科技文獻(xiàn)中挖掘技術(shù)主題;④借助技術(shù)主題的時(shí)間信息,使用時(shí)間序列分析等方式預(yù)測(cè)技術(shù)主題演化趨勢(shì)[3]。
在信息技術(shù)快速發(fā)展的知識(shí)經(jīng)濟(jì)時(shí)代,虛擬現(xiàn)實(shí)作為戰(zhàn)略新興技術(shù)的代表,涉及通信、互聯(lián)網(wǎng)、新媒體等多個(gè)領(lǐng)域,具有突出的跨界融合性與技術(shù)交叉性,有望引領(lǐng)新一輪技術(shù)的變革。眾多科技新興企業(yè)均在VR領(lǐng)域積極布局,主要科技大國(guó)也均把VR列為戰(zhàn)略新興領(lǐng)域,中國(guó)在國(guó)家“十三五”規(guī)劃綱要、G20工商峰會(huì)上的重要講話中提出要發(fā)展人工智能和虛擬現(xiàn)實(shí)等技術(shù),大力支持虛擬現(xiàn)實(shí)(VR)等新興前沿領(lǐng)域創(chuàng)新和產(chǎn)業(yè)化,建設(shè)創(chuàng)新型世界經(jīng)濟(jì)[4-8]。在產(chǎn)業(yè)鏈視角下,深度挖掘中國(guó)VR領(lǐng)域的專利技術(shù)主題、技術(shù)熱點(diǎn)與發(fā)展趨勢(shì),可以分別從宏觀、中觀和微觀不同的角度對(duì)政府、產(chǎn)業(yè)和企業(yè)提供不同的情報(bào)服務(wù),在此基礎(chǔ)上制定相應(yīng)的競(jìng)爭(zhēng)戰(zhàn)略;有助于相關(guān)政府部門(mén)、VR科研機(jī)構(gòu)和企業(yè)等主體在中國(guó)和全球范圍內(nèi)更好地進(jìn)行專利布局,為中國(guó)VR產(chǎn)業(yè)發(fā)展提供參考建議,最終提高中國(guó)VR領(lǐng)域的整體產(chǎn)業(yè)競(jìng)爭(zhēng)力。
2? 相關(guān)研究
2.1? 虛擬現(xiàn)實(shí)
虛擬現(xiàn)實(shí)是以計(jì)算機(jī)技術(shù)為核心,生成與現(xiàn)實(shí)環(huán)境在視、聽(tīng)、觸感等方面高度近似的數(shù)字化環(huán)境。用戶借助相關(guān)設(shè)備與虛擬環(huán)境中的對(duì)象進(jìn)行交互,從而產(chǎn)生真實(shí)環(huán)境的感受和體驗(yàn)。目前關(guān)于虛擬現(xiàn)實(shí)的研究主要集中在技術(shù)研究[4-5]、系統(tǒng)研究[6-7]、應(yīng)用研究[8]3個(gè)方面:①虛擬現(xiàn)實(shí)技術(shù)研究。學(xué)者主要從立體顯示技術(shù)[9]、傳感器技術(shù)[10]、三維圖形生成技術(shù)[11]等方面將虛擬和現(xiàn)實(shí)環(huán)境進(jìn)行混合、實(shí)時(shí)交互、三維注冊(cè)。②虛擬現(xiàn)實(shí)系統(tǒng)研究。主要分為硬件研究和軟件研究,硬件研究包括三維跟蹤定位設(shè)備、人體運(yùn)動(dòng)捕捉設(shè)備、觸覺(jué)力覺(jué)反饋設(shè)備等的研究[12];軟件研究包括數(shù)據(jù)庫(kù)研究[13],三維動(dòng)畫(huà)、網(wǎng)絡(luò)場(chǎng)景等應(yīng)用軟件研究[14],基于Vizard軟件、Virtools軟件、EON軟件等的虛擬現(xiàn)實(shí)開(kāi)發(fā)平臺(tái)研究[15]。③虛擬現(xiàn)實(shí)應(yīng)用研究。隨著技術(shù)不斷地進(jìn)步與成熟,虛擬現(xiàn)實(shí)技術(shù)逐漸被應(yīng)用到教育[16]、醫(yī)療[17]、圖書(shū)館[18]、博物館[19]等不同場(chǎng)合,從而為人們的生產(chǎn)、生活、學(xué)習(xí)帶來(lái)巨大的影響與沖擊。
2.2? 基于文本挖掘的專利技術(shù)主題分析
技術(shù)主題分析是文本挖掘在專利分析中的重要應(yīng)用之一。目前已有較多利用文本挖掘方法進(jìn)行專利技術(shù)主題分析的研究成果,依次包括詞頻統(tǒng)計(jì)分析、共詞分析、文本聚類分析、文本挖掘技術(shù)與引文聚類相結(jié)合的技術(shù)主題分析[20]。①基于詞頻統(tǒng)計(jì)的技術(shù)主題研究。主要是通過(guò)IPC分類號(hào)、高頻詞等的統(tǒng)計(jì)分析,研究某技術(shù)領(lǐng)域的主題分布情況[21]。②基于共詞分析的技術(shù)主題研究。主要包括共詞網(wǎng)絡(luò)分析、共詞聚類分析和戰(zhàn)略圖分析3種方法,可以比較客觀地揭示技術(shù)領(lǐng)域中的各技術(shù)主題及技術(shù)主題之間的相互關(guān)聯(lián)[22-23]。③基于文本聚類的技術(shù)主題研究。主要是對(duì)專利進(jìn)行聚類,形成代表技術(shù)主題的多個(gè)聚簇;為每個(gè)聚簇生成主題詞,從而直觀有效地表示技術(shù)主題的分布情況[24]。④基于文本挖掘與引文聚類相結(jié)合的技術(shù)主題研究。主要從文本信息與引用信息的底層融合角度,分析技術(shù)研究熱點(diǎn)、識(shí)別新興技術(shù)主題、預(yù)測(cè)技術(shù)主題的發(fā)展趨勢(shì)[25]。
4.1? 基于IPC分類號(hào)的專利產(chǎn)業(yè)鏈構(gòu)建
依據(jù)文獻(xiàn)調(diào)研、專家咨詢和專利的IPC分類號(hào),將虛擬現(xiàn)實(shí)產(chǎn)業(yè)鏈分為工具/設(shè)備設(shè)計(jì)、內(nèi)容制作、行業(yè)應(yīng)用。在此基礎(chǔ)上,選取專利的IPC分類號(hào)作為語(yǔ)義情景的限定,為所有專利賦予產(chǎn)業(yè)鏈語(yǔ)義。在提取IPC分類號(hào)時(shí),不同的IPC層級(jí)會(huì)產(chǎn)生不同的聚類效果。基于IPC大類的劃分過(guò)于粗泛,聚類效果不明顯;基于IPC大組的劃分過(guò)于密集,同樣不適合聚類;而基于IPC小類的劃分,能夠在區(qū)分度明顯的基礎(chǔ)上保證規(guī)模不過(guò)于巨大,因而最終選定以主IPC分類號(hào)小類作為語(yǔ)言情景的限定。為了研究過(guò)程的簡(jiǎn)易性及結(jié)果展示的直觀性,將專利數(shù)據(jù)涉及的產(chǎn)業(yè)鏈與IPC小類進(jìn)行編碼,部分編碼分布情況如表3所示。其中,產(chǎn)業(yè)鏈上游為“工具/設(shè)備設(shè)計(jì)”,產(chǎn)業(yè)鏈中游為“內(nèi)容制作”,產(chǎn)業(yè)鏈下游為“行業(yè)應(yīng)用”。
4.2? 基于關(guān)鍵詞聚類的專利產(chǎn)業(yè)鏈驗(yàn)證
研究采用K-means算法驗(yàn)證已構(gòu)建的專利產(chǎn)業(yè)鏈。首先,合并“同類關(guān)鍵詞”。通過(guò)人工觀察,將包含“本發(fā)明”“本發(fā)明專利”“本專利”等數(shù)據(jù)的關(guān)鍵詞,統(tǒng)一合并為“發(fā)明專利”。其次,采用K-means算法中的歐氏距離來(lái)計(jì)算數(shù)據(jù)對(duì)象間的距離。根據(jù)相似性原則,將具有較高相似度的數(shù)據(jù)對(duì)象劃分至同一類簇,將具有較高相異度的數(shù)據(jù)對(duì)象劃分至不同類簇。
VR專利摘要文本的K-means聚類效果如圖2所示。依據(jù)產(chǎn)業(yè)鏈的分類特性和已有關(guān)于產(chǎn)業(yè)鏈劃分的研究文獻(xiàn)可知,專利產(chǎn)業(yè)鏈通常劃分為上、中、下3類[32]或基礎(chǔ)、技術(shù)、應(yīng)用3類[33-34]。據(jù)此,研究將類簇個(gè)數(shù)K值設(shè)定為3,將專利文本聚集成3類主題。從圖2中可以看到3個(gè)類簇有效地分隔開(kāi)來(lái),相似主題的文獻(xiàn)聚集在一起,文本聚類效果較好。其中黃色表示“工具/設(shè)備設(shè)計(jì)”主題,紫色表示“行業(yè)應(yīng)用”主題,綠色表示“內(nèi)容制作”主題;且“工具/設(shè)備設(shè)計(jì)”專利聚類數(shù)量>“行業(yè)應(yīng)用”專利聚類數(shù)量>“內(nèi)容制作”專利聚類數(shù)量。觀察聚類結(jié)果可知,“工具”“設(shè)備”等關(guān)鍵詞聚為一類,劃分至“工具/設(shè)備設(shè)計(jì)”專利類別;“游戲生產(chǎn)”“聲音生產(chǎn)”“視頻生產(chǎn)”等關(guān)鍵詞聚為一類,劃分至“內(nèi)容制作”專利類別;“醫(yī)療應(yīng)用”“教育應(yīng)用”“旅游應(yīng)用”等關(guān)鍵詞聚為一類,劃分至“行業(yè)應(yīng)用”專利類別?;陉P(guān)鍵詞聚類的VR專利產(chǎn)業(yè)鏈驗(yàn)證結(jié)果,與上文中基于IPC分類號(hào)的VR專利產(chǎn)業(yè)鏈構(gòu)建結(jié)果具有一致性。據(jù)此,根據(jù)產(chǎn)業(yè)鏈的構(gòu)建和驗(yàn)證結(jié)果,對(duì)中國(guó)VR專利進(jìn)行分類,構(gòu)建產(chǎn)業(yè)鏈語(yǔ)料庫(kù)。
5? 產(chǎn)業(yè)鏈視角下中國(guó)VR專利的技術(shù)主題與趨勢(shì)分析
5.1? 基于TF-IDF算法的技術(shù)關(guān)鍵詞挖掘
為了避免LDA主題分析抽取出的特征詞匯不具主題代表性,研究首先使用TF-IDF算法對(duì)所得詞匯賦予不同權(quán)重,有效過(guò)濾常見(jiàn)詞匯,保留重要詞匯,進(jìn)而提高主題特征詞的抽取準(zhǔn)確率。TF-IDF是一種計(jì)算詞語(yǔ)權(quán)重的經(jīng)典統(tǒng)計(jì)方法,由詞頻(term frequency,TF) 和逆向文檔頻率(inverse document frequency,IDF) 兩部分?jǐn)?shù)據(jù)組成。TF-IDF的計(jì)算如公式(1)所示,其中,tfi,j代表詞語(yǔ)wi在文檔dj中出現(xiàn)頻率,idfi代表詞語(yǔ)wi在文本庫(kù)d中的逆向文檔頻率。通過(guò)公式可以看出,詞語(yǔ)wi對(duì)文檔dj 的重要程度和它在文檔dj中出現(xiàn)的頻率成正比,和它在整個(gè)文本庫(kù)dj中包含詞語(yǔ)wi的文檔數(shù)成反比。
依照產(chǎn)業(yè)鏈語(yǔ)料庫(kù)數(shù)據(jù)和編碼分詞,在Python中提取摘要文本關(guān)鍵詞;整合相似的文本數(shù)據(jù),刪除無(wú)實(shí)際作用的字段,根據(jù)TF-IDF算法計(jì)算關(guān)鍵詞權(quán)重。TF-IDF算法是通過(guò)計(jì)算特征詞在整個(gè)文本庫(kù)中出現(xiàn)的總頻率,從而標(biāo)記出關(guān)鍵詞的重要程度。產(chǎn)業(yè)鏈各環(huán)節(jié)中國(guó)VR專利摘要文本的高頻關(guān)鍵詞及權(quán)重計(jì)算結(jié)果如表4所示,可以看出“發(fā)明專利”類型在產(chǎn)業(yè)鏈上、中、下游的比重均較大。此外,產(chǎn)業(yè)鏈上游“工具/設(shè)備設(shè)計(jì)”中“發(fā)明專利”類型占比較大,產(chǎn)業(yè)鏈中游“內(nèi)容制作”中“外觀設(shè)計(jì)”類型專利占比較大,產(chǎn)業(yè)鏈下游“行業(yè)應(yīng)用”中“實(shí)用新型”類型專利占比較大。
5.2? 基于LDA模型的技術(shù)主題詞挖掘
在基于LDA模型的主題挖掘中,最佳主題數(shù)目的確定是最為關(guān)鍵的一步,本文使用Gibbs采樣的方法推斷LDA模型中所涉及的多個(gè)分布。首先,充分參考虛擬現(xiàn)實(shí)產(chǎn)業(yè)鏈環(huán)節(jié)數(shù)量后, 將各個(gè)環(huán)節(jié)的輸出主題數(shù)目初步確定為3-10個(gè),對(duì)LDA模型進(jìn)行訓(xùn)練。其次,通過(guò)計(jì)算模型困惑度Perplexity來(lái)判斷模型的好壞,從而確定該模型的最佳參數(shù),即使用不同數(shù)量的主題分別建模,隨機(jī)將語(yǔ)料庫(kù)劃分為訓(xùn)練集與測(cè)試集,訓(xùn)練集和測(cè)試集比例為8:2。最后,通過(guò)計(jì)算困惑度10次結(jié)果的平均值將產(chǎn)業(yè)鏈上游的最佳主題數(shù)目確定為4個(gè),將產(chǎn)業(yè)鏈中游的最佳主題數(shù)目確定為3個(gè),將產(chǎn)業(yè)鏈下游的最佳主題數(shù)目確定為7個(gè)。
通過(guò)充分了解該領(lǐng)域的技術(shù)知識(shí),對(duì)中國(guó)虛擬現(xiàn)實(shí)領(lǐng)域?qū)@M(jìn)行技術(shù)主題標(biāo)注,確定主題名稱。某種程度上,使用LDA主題模型挖掘到的主題可視為從技術(shù)鏈角度對(duì)虛擬現(xiàn)實(shí)技術(shù)進(jìn)行細(xì)分,如表5所示。由表5可以看出,每個(gè)主題之間的區(qū)分非常明顯。產(chǎn)業(yè)鏈上游——“工具/設(shè)備設(shè)計(jì)”的4個(gè)主題分別為輸入設(shè)備、顯示設(shè)備、拍攝設(shè)備、軟件;產(chǎn)業(yè)鏈中游——“內(nèi)容制作”的3個(gè)主題分別為影視、聲音、游戲;產(chǎn)業(yè)鏈下游——“行業(yè)應(yīng)用”的7個(gè)主題分別為房地產(chǎn)、旅游、工業(yè)、軍事、醫(yī)療、教育、娛樂(lè)。
5.3? 產(chǎn)業(yè)鏈視角下的技術(shù)主題強(qiáng)度與熱點(diǎn)分析
經(jīng)文獻(xiàn)研究與小組討論認(rèn)為,產(chǎn)業(yè)鏈視角下技術(shù)主題強(qiáng)度的衡量指標(biāo)主要包括:產(chǎn)業(yè)鏈各環(huán)節(jié)的專利數(shù)量權(quán)重與專利文檔概率。其中,產(chǎn)業(yè)鏈各環(huán)節(jié)的專利權(quán)重為上、中、下游專利數(shù)量在總專利數(shù)量中的占比,文檔概率為上、中、下游產(chǎn)業(yè)鏈視角下各主題的隸屬概率值。產(chǎn)業(yè)鏈視角下各技術(shù)主題的綜合強(qiáng)度計(jì)算如公式(2)所示:
TIi為第i個(gè)主題的綜合強(qiáng)度。其中,i為專利的15個(gè)主題(i=1,2,3,……,14),p為這14個(gè)主題分別對(duì)應(yīng)的三個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)(p=1,2,3)。LDAi為第i個(gè)主題的LDA權(quán)重值,nip為第i個(gè)主題所對(duì)應(yīng)的第p個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)的專利數(shù)量,為第p個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)的專利數(shù)量
權(quán)重值;為第i個(gè)主題的LDA權(quán)重值與其所對(duì)應(yīng)的第p個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)的專利數(shù)量權(quán)重值之乘積。
根據(jù)LDA模型提取的權(quán)重值,結(jié)合產(chǎn)業(yè)鏈各環(huán)節(jié)的專利數(shù)量,計(jì)算出產(chǎn)業(yè)鏈視角下各技術(shù)主題的綜合強(qiáng)度分布,結(jié)果如表6所
示。由表6的綜合主題強(qiáng)度可知,上游“工具/設(shè)備設(shè)計(jì)”產(chǎn)業(yè)鏈的強(qiáng)度最大,是當(dāng)前最熱門(mén)的研究領(lǐng)域;其次是下游“行業(yè)應(yīng)用”,也是中國(guó)VR領(lǐng)域研發(fā)的共同關(guān)注焦點(diǎn);最后是中游“內(nèi)容制作”產(chǎn)業(yè)鏈,是中國(guó)VR領(lǐng)域研發(fā)的薄弱環(huán)節(jié)。從表6所示的各技術(shù)主題強(qiáng)度分布來(lái)看,在“工具/設(shè)備設(shè)計(jì)”環(huán)節(jié),研發(fā)熱點(diǎn)集中在Topic4軟件研發(fā)和Topic1輸入設(shè)備;在“內(nèi)容制作”環(huán)節(jié),研發(fā)熱點(diǎn)集中在Topic5影視;在“行業(yè)應(yīng)用”環(huán)節(jié),研發(fā)熱點(diǎn)集中在Topic12醫(yī)療、Topic13教育、Topic14娛樂(lè)。
5.4? 產(chǎn)業(yè)鏈視角下的技術(shù)發(fā)展趨勢(shì)分析
基于產(chǎn)業(yè)鏈語(yǔ)料庫(kù)中的IPC編碼,統(tǒng)計(jì)分析了中國(guó)VR專利的熱點(diǎn)技術(shù)領(lǐng)域,部分統(tǒng)計(jì)結(jié)果如表7所示。結(jié)合表7的專利熱點(diǎn)技術(shù)領(lǐng)域以及表6的VR產(chǎn)業(yè)鏈各環(huán)節(jié)技術(shù)主題的強(qiáng)度分布,可以分析出未來(lái)5-10年中國(guó)VR專利的發(fā)展趨勢(shì)。具體體現(xiàn)在:①中國(guó)VR專利研發(fā)在產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)均會(huì)呈上升趨勢(shì),且上游研發(fā)與中、下游研發(fā)之間的增長(zhǎng)幅度會(huì)漸漸趨于一致,三者之間的專利數(shù)量差距會(huì)緩慢減小。②熱點(diǎn)研發(fā)環(huán)節(jié)仍會(huì)集中在上游的“工具/設(shè)備設(shè)計(jì)”,且以G06(計(jì)算;推算;計(jì)數(shù))、G02(光學(xué))、H04(電通信技術(shù))等技術(shù)領(lǐng)域?yàn)橹髁?。③產(chǎn)業(yè)鏈下游的“行業(yè)應(yīng)用”研發(fā)環(huán)節(jié)將會(huì)呈迅猛增長(zhǎng)態(tài)勢(shì),且以A63(運(yùn)動(dòng);游戲;娛樂(lè)活動(dòng))、A61(醫(yī)學(xué)或獸醫(yī)學(xué);衛(wèi)生學(xué))、E04(建筑物)等技術(shù)領(lǐng)域?yàn)橹髁?。④產(chǎn)業(yè)鏈中游的“內(nèi)容制作”作為薄弱研發(fā)環(huán)節(jié)會(huì)保持緩慢上升,且以B60(一般車輛)、F16(工程元件或部件;為產(chǎn)生和保持機(jī)器或設(shè)備的有效運(yùn)行的一般措施)、B64(飛行器;航空;宇宙航行)等技術(shù)領(lǐng)域?yàn)橹髁鳌?/p>
6? 結(jié)論與展望
6.1? 研究結(jié)論
研究主要得出以下幾個(gè)方面的結(jié)論:
(1)在產(chǎn)業(yè)鏈的構(gòu)建與驗(yàn)證方面,結(jié)合IPC分類號(hào)、K-means聚類的定性和定量分析可知,中國(guó)VR專利的上游材料端為“工具/設(shè)備設(shè)計(jì)”,中游生產(chǎn)端為“內(nèi)容制作”,下游應(yīng)用端為“行業(yè)應(yīng)用”;且上游材料端專利聚類數(shù)量>下游應(yīng)用端專利聚類數(shù)量>中游生產(chǎn)端專利聚類數(shù)量。此外,不僅在專利數(shù)量方面,而且在專利文本挖掘方面,目前中國(guó)VR行業(yè)更加注重上游產(chǎn)業(yè)端專利,且上游專利和中、下游專利之間的差距較大,產(chǎn)業(yè)鏈各環(huán)節(jié)的專利比例不均衡。
(2)在研發(fā)主題分布方面,結(jié)合VR產(chǎn)業(yè)鏈語(yǔ)料庫(kù)的TF-IDF關(guān)鍵詞權(quán)重值、LDA概率權(quán)重值可知,“發(fā)明專利”類型在產(chǎn)業(yè)鏈上、中、下游的比重均較大。此外,上游研發(fā)主題包括輸入設(shè)備、顯示設(shè)備、拍攝設(shè)備、軟件等工具/設(shè)備,其中“發(fā)明專利”類型占比較大;中游研發(fā)主題包括影視、聲音、游戲等內(nèi)容制作,其中“外觀設(shè)計(jì)”類型占比較大;下游研發(fā)主題包括房地產(chǎn)、旅游、工業(yè)、軍事、醫(yī)療、教育、娛樂(lè)等行業(yè)應(yīng)用,其中“實(shí)用新型”類型占比較大。
(3)在主題強(qiáng)度與研發(fā)熱點(diǎn)挖掘方面,結(jié)合產(chǎn)業(yè)鏈視角下各主題的研發(fā)強(qiáng)度可知:綜合主題強(qiáng)度中,上游是當(dāng)前最熱門(mén)的研究鏈,其次是下游產(chǎn)業(yè)鏈,最薄弱的是中游產(chǎn)業(yè)鏈,這與IPC分類號(hào)、K-means聚類結(jié)果相一致,進(jìn)一步驗(yàn)證了研究結(jié)果的科學(xué)性。此外,從各技術(shù)主題的強(qiáng)度分布來(lái)看,上游研發(fā)熱點(diǎn)為輸入設(shè)備和軟件,諸如“信息輸入設(shè)備”“數(shù)據(jù)輸入設(shè)備”“客戶端輸入設(shè)備”等;中游研發(fā)熱點(diǎn)為影視,諸如“VR高清立體影視柔性傳輸線”“用于虛擬現(xiàn)實(shí)影視制作的穩(wěn)拍系統(tǒng)”“VR影視拍攝履帶車”“用于播放3D影視的VR眼鏡”等;下游研發(fā)熱點(diǎn)為醫(yī)療、教育、娛樂(lè),醫(yī)療諸如“基于VR技術(shù)的醫(yī)療手術(shù)模擬仿真系統(tǒng)”“基于虛擬現(xiàn)實(shí)的醫(yī)療設(shè)備操控系統(tǒng)”“基于虛擬現(xiàn)實(shí)的醫(yī)療設(shè)備演示系統(tǒng)”等,教育諸如“基于VR技術(shù)的小學(xué)生科技教育系統(tǒng)”“基于VR和動(dòng)作捕捉的遠(yuǎn)程教育系統(tǒng)”“VR安全教育動(dòng)感座椅”等,娛樂(lè)諸如“三自由度虛擬現(xiàn)實(shí)游樂(lè)設(shè)備”“基于真實(shí)球拍的協(xié)同式增強(qiáng)現(xiàn)實(shí)乒乓球系統(tǒng)”“虛擬與現(xiàn)實(shí)有機(jī)結(jié)合的開(kāi)心農(nóng)場(chǎng)及實(shí)現(xiàn)方法”等。
(4)在技術(shù)發(fā)展趨勢(shì)方面,中國(guó)VR專利研發(fā)在產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)均會(huì)呈上升趨勢(shì),且上游研發(fā)與中、下游研發(fā)之間的專利差距會(huì)緩慢減小。通過(guò)進(jìn)一步細(xì)分的IPC分類號(hào)可知,產(chǎn)業(yè)鏈上游“工具/設(shè)備設(shè)計(jì)”的具體技術(shù)研發(fā)趨勢(shì)為G06F(計(jì)算;推算;計(jì)數(shù)——電數(shù)字?jǐn)?shù)據(jù)處理)、G02B(光學(xué)——光學(xué)元件、系統(tǒng)或儀器)、H04N(電通信技術(shù)——圖像通信,如電視)等領(lǐng)域;產(chǎn)業(yè)鏈下游“行業(yè)應(yīng)用”的具體技術(shù)研發(fā)趨勢(shì)為A63F(運(yùn)動(dòng);游戲;娛樂(lè)活動(dòng)——利用小型運(yùn)動(dòng)物體的室內(nèi)游戲)、A61B(醫(yī)學(xué)或獸醫(yī)學(xué);衛(wèi)生學(xué)——診斷;外科;鑒定)、E04H(建筑物——專門(mén)用途的建筑物或類似的構(gòu)筑物)等領(lǐng)域;產(chǎn)業(yè)鏈中游“內(nèi)容制作”的具體技術(shù)研發(fā)趨勢(shì)為B60R(一般車輛——不包含在其他類目中的車輛、車輛配件或車輛部件)、B64D(飛行器;航空;宇宙航行——用于與飛機(jī)配合或裝到飛機(jī)上的設(shè)備;飛行衣;降落傘;動(dòng)力裝置或推進(jìn)傳動(dòng)裝置的配置或安裝)、F16F(工程元件或部件——彈簧;減震器;減振裝置)等領(lǐng)域。
(5)研究雖然是以VR專利領(lǐng)域?yàn)槔M(jìn)行實(shí)證分析,但相關(guān)研究思路、研究框架和研究方法可擴(kuò)展到其他領(lǐng)域進(jìn)行專利分析應(yīng)用。在數(shù)據(jù)采集與清洗的基礎(chǔ)上,基于IPC分類號(hào)構(gòu)建專利產(chǎn)業(yè)鏈,并通過(guò)K-means聚類進(jìn)行產(chǎn)業(yè)鏈驗(yàn)證,通過(guò)定性和定量研究方法的結(jié)合,而不僅僅是通過(guò)單一的定性方法,進(jìn)行專利產(chǎn)業(yè)鏈的構(gòu)建,為專利領(lǐng)域產(chǎn)業(yè)鏈研究提供新的研究視角。在產(chǎn)業(yè)鏈視角下,通過(guò)計(jì)算上、中、下游專利文本的關(guān)鍵詞權(quán)重、主題詞權(quán)重,進(jìn)而結(jié)合二者衡量專利的綜合強(qiáng)度,以此挖掘?qū)@募夹g(shù)主題強(qiáng)度與熱點(diǎn),預(yù)測(cè)專利的技術(shù)發(fā)展趨勢(shì),為專利文本挖掘和技術(shù)主題分析提供新的研究思路。
6.2? 對(duì)策建議
中國(guó)VR正處于產(chǎn)業(yè)爆發(fā)的前夕,即將進(jìn)入持續(xù)高速發(fā)展的窗口期。可以預(yù)見(jiàn),在未來(lái)的五年內(nèi),VR消費(fèi)市場(chǎng)將迅速爆發(fā),行業(yè)應(yīng)用有望全面展開(kāi),文化內(nèi)容將日趨繁榮,技術(shù)體系和產(chǎn)業(yè)格局也將初步形成。為推動(dòng)我國(guó)VR產(chǎn)業(yè)發(fā)展,建議從以下方面開(kāi)展工作:①進(jìn)一步加強(qiáng)虛擬現(xiàn)實(shí)技術(shù)的研發(fā)。政府應(yīng)支持設(shè)立重大相關(guān)研發(fā)項(xiàng)目,為產(chǎn)業(yè)發(fā)展提供共性技術(shù)、關(guān)鍵技術(shù)甚至顛覆性技術(shù)的供給;圍繞虛擬現(xiàn)實(shí)產(chǎn)業(yè)鏈的關(guān)鍵環(huán)節(jié),加強(qiáng)產(chǎn)學(xué)研合作,積極引導(dǎo)企業(yè)與科研單位投入虛擬現(xiàn)實(shí)研究,在關(guān)鍵技術(shù)上開(kāi)展深度合作。②大力促進(jìn)虛擬現(xiàn)實(shí)技術(shù)的市場(chǎng)化和產(chǎn)業(yè)化。以虛擬現(xiàn)實(shí)技術(shù)在工業(yè)、文化、教育、娛樂(lè)和醫(yī)療等領(lǐng)域帶來(lái)的廣闊前景為契機(jī),明確產(chǎn)業(yè)政策支持的方向。? ? ③盡快建立虛擬現(xiàn)實(shí)技術(shù)的行業(yè)標(biāo)準(zhǔn)。形成我國(guó)虛擬現(xiàn)實(shí)技術(shù)標(biāo)準(zhǔn)體系,鞏固自主技術(shù)布局占位,提高產(chǎn)業(yè)自主話語(yǔ)權(quán)。
6.3? 研究展望
研究的局限性在于選取的檢索數(shù)據(jù)庫(kù)為“中國(guó)專利數(shù)據(jù)庫(kù)”,數(shù)據(jù)僅限于在華申請(qǐng)的專利,且數(shù)據(jù)庫(kù)沒(méi)有相應(yīng)的引文數(shù)據(jù),無(wú)法做到與引文指標(biāo)的對(duì)比分析。因此,在下一階段的研究中,可以選擇德溫特專利數(shù)據(jù)庫(kù)(Derwent Innovation Index,DII)作為檢索數(shù)據(jù)庫(kù),德溫特?cái)?shù)據(jù)庫(kù)及其專利引文索引涵蓋100多個(gè)國(guó)家、40多個(gè)專利機(jī)構(gòu),數(shù)據(jù)最早可追溯至1963年,為大規(guī)模的專利文獻(xiàn)研究提供了規(guī)范可靠的數(shù)據(jù)來(lái)源,而它的及時(shí)更新又為專利技術(shù)前沿的研究提供了可能,是企業(yè)和相關(guān)研究人員分析專利情報(bào)必不可少的工具。
參考文獻(xiàn):
[1] 楊超, 朱東華, 汪雪鋒, 等.專利技術(shù)主題分析:基于SAO結(jié)構(gòu)的LDA主題模型方法[J].圖書(shū)情報(bào)工作, 2017, 61(3): 86-96.
[2] 李姝影, 張?chǎng)危?許軼, 等.核心專利集篩選及專利技術(shù)主題識(shí)別影響[J].情報(bào)學(xué)報(bào), 2019, 38(1): 17-24.
[3] 陳偉, 林超然, 李金秋, 等.基于LDA-HMM的專利技術(shù)主題演化趨勢(shì)分析——以船用柴油機(jī)技術(shù)為例[J].情報(bào)學(xué)報(bào), 2018(7): 732-741.
[4] 張婷婷.網(wǎng)絡(luò)綜合布線實(shí)驗(yàn)室虛擬現(xiàn)實(shí)技術(shù)下的設(shè)計(jì)與研究[J].電子測(cè)試, 2019(3): 106-107.
[5] 孫柏林.區(qū)塊鏈+虛擬技術(shù):仿真技術(shù)的新動(dòng)向[J].計(jì)算機(jī)仿真, 2019, 36(1): 8-13, 35.
[6] 周永偉.巖石工程虛擬現(xiàn)實(shí)系統(tǒng)的建立及應(yīng)用[J].山西建筑, 2019, 45(2): 77-79.
[7] 謝敬偉.分布式虛擬現(xiàn)實(shí)交互仿真系統(tǒng)研究[D].杭州:浙江大學(xué), 2017.
[8] PAN X, HAMILTON A F D C. Why and how to use virtual reality to study human social interaction: the challenges of exploring a new research landscape[J].British journal of psychology, 2018:395-417.
[9] 劉子騰.面向虛擬人體解剖模型的交互式立體顯示方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué), 2017.
[10] 李發(fā)達(dá).基于多傳感器的交通控制硬件在環(huán)仿真技術(shù)研究與應(yīng)用[D].北京:北京工業(yè)大學(xué), 2017.
[11] 周雪, 李颯.基于真實(shí)感圖形生成技術(shù)的三維偶動(dòng)畫(huà)創(chuàng)作探索[J].中國(guó)教育技術(shù)裝備, 2017(16): 43-44.
[12] 許兵.基于虛擬現(xiàn)實(shí)設(shè)備的典型飛機(jī)機(jī)翼裝配仿真[D].沈陽(yáng):沈陽(yáng)航空航天大學(xué), 2017.
[13] 閻麗, 胡丹丹, 閻春元, 等.基于感知覺(jué)學(xué)習(xí)的兒童視覺(jué)及智能虛擬現(xiàn)實(shí)數(shù)據(jù)庫(kù)系統(tǒng)對(duì)弱視治療效果的研究[J].臨床醫(yī)學(xué)工程, 2006(2): 32-33.
[14] 周哲泓, 薛錦云, 黃捷文. 虛擬現(xiàn)實(shí)軟件系統(tǒng)開(kāi)發(fā)方法研究[J]. 計(jì)算機(jī)工程與科學(xué), 2019, 41 (11): 1968-1975.
[15] 申閆春, 王銳, 郭富榮, 等.基于并行渲染的虛擬現(xiàn)實(shí)開(kāi)發(fā)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)仿真, 2012, 29(11): 24-27.
[16] 劉園.VR技術(shù)在教育領(lǐng)域的研究與應(yīng)用[J].電腦知識(shí)與技術(shù), 2016, 12(16): 207-208.
[17] BA?OS R M, GUILLEN V, QUERO S, et al. A virtual reality system for the treatment of stress-related disorders: a preliminary analysis of efficacy compared to a standard cognitive behavioral program[J]. International journal of human-computer studies, 2011, 69(9): 602-613.
[18] 陸穎雋, 程磊.基于虛擬現(xiàn)實(shí)技術(shù)的圖書(shū)館信息資源建設(shè)與服務(wù)創(chuàng)新研究——以CADAL為例[J].圖書(shū)與情報(bào), 2017(4): 8-12.
[19] 丁錚.增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)在博物館的應(yīng)用[J].信息與電腦(理論版), 2017(24): 47-50.
[20] 胡阿沛, 張靜, 雷孝平, 等.基于文本挖掘的專利技術(shù)主題分析研究綜述[J].情報(bào)雜志, 2013(12): 88-92.
[21] 張彬, 陳永翀, 張艷萍, 等.鋰漿料電池國(guó)際專利技術(shù)分析[J].儲(chǔ)能科學(xué)與技術(shù), 2017(5): 1000-1007.
[22] 隗玲, 許海云, 劉春江, 等.技術(shù)領(lǐng)域主題發(fā)現(xiàn)研究——以基因工程疫苗領(lǐng)域?yàn)槔齕J].數(shù)字圖書(shū)館論壇, 2017(1): 39-47.
[23] 張杰, 劉美佳, 翟東升.基于專利共詞分析的RFID領(lǐng)域技術(shù)主題研究[J].科技管理研究, 2013, 33(10): 129- 132, 140.
[24] 林廣杰.基于頻繁項(xiàng)集的海量文本聚類研究[D].北京:北京郵電大學(xué), 2015.
[25] 丁麒, 莊志畫(huà), 劉東丹.基于文本數(shù)據(jù)挖掘技術(shù)的95598業(yè)務(wù)工單主題分析應(yīng)用[J].電力需求側(cè)管理, 2016(A01): 55-57.
[26] 王镠富, 胡等金.基于產(chǎn)業(yè)鏈的專利叢林測(cè)量與對(duì)策研究[J].情報(bào)理論與實(shí)踐, 2019, 42(4): 101-106.
[27] 張杰, 趙君博, 翟東升, 等.基于主題模型的微藻生物燃料產(chǎn)業(yè)鏈專利技術(shù)分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2019, 3(2): 52-64.
[28] 吳紅, 伊惠芳, 馬永新, 等.面向?qū)@夹g(shù)主題分析的WI—LDA模型研究[J].圖書(shū)情報(bào)工作, 2018(17): 68-74.
[29] 張超.基于專利數(shù)據(jù)挖掘的技術(shù)趨勢(shì)分析方法[D].大連:大連理工大學(xué), 2014.
[30] 林志堅(jiān), 諶凱, 潘婷婷, 等.國(guó)內(nèi)外虛擬現(xiàn)實(shí)技術(shù)專利分析研究[J].競(jìng)爭(zhēng)情報(bào), 2018:24-32.
[31] 黃立業(yè), 趙輝, 王堅(jiān), 等.基于專利分析的產(chǎn)業(yè)競(jìng)爭(zhēng)情報(bào)分析框架研究[J].情報(bào)科學(xué), 2015(4): 59-63.
[32] 王靜宇, 劉穎琦, KOKKO A .基于專利信息的中國(guó)新能源汽車產(chǎn)業(yè)技術(shù)創(chuàng)新研究[J].情報(bào)雜志, 2016, 35(1): 36-42.
[33] 于申, 楊振磊.全球人工智能產(chǎn)業(yè)鏈創(chuàng)新發(fā)展態(tài)勢(shì)研究[J].天津經(jīng)濟(jì), 2019(5): 13-18.
[34] 方思, 李國(guó)秋.全球無(wú)人駕駛汽車專利分析——從產(chǎn)業(yè)鏈和技術(shù)鏈的二維角度[J].競(jìng)爭(zhēng)情報(bào), 2016,12(5): 27-36.
作者貢獻(xiàn)說(shuō)明:
陳? 玲:數(shù)據(jù)收集與分析,論文起草與修改,論文最終版本修訂;
林? 平:數(shù)據(jù)分析;
段堯清:提出整體研究思路與框架,修改論文。
Technology Topic Mining and Trend Analysis from the Perspective of Industrial Chain Combined with K-Means and LDA
——Taking Virtual Reality Technology as an Example
Chen Ling1? ?Lin Ping1? ?Duan Yaoqing1,2
1School of Information Management, Central China Normal University, Wuhan 430079
2Hubei Research Center of Data Governance and Intelligent Decision-making, Wuhan 430079
Abstract: [Purpose/significance] From the perspective of industry chain, this paper takes virtual reality technology as an example, constructs VR patent industry chain corpus, and explores the technical theme, research and development hotspot and future development trend of China VR patent. [Method/process] First of all, this paper used Python to crawl the patent text in VR field and got effective corpus through data cleaning. Secondly, combining IPC classification number and K-means clustering algorithm, this paper constructed and validates VR patent industry chain. In addition, based on TF-IDF algorithm and LDA theme model, we identified the core technology themes and their comprehensive strength, technology research and development hotspots and future trends of China VR patents from the perspective of production chain. [Result/conclusion] At present, the proportion of patents in each link of China VR industry chain is unbalanced. The upstream link is the most popular, followed by the downstream link, and the weakest link is the midstream link. In terms of theme mining, the upstream hot spot is software development, the midstream hot spot is film and television production, and the downstream hot spot is medical, educational and entertainment applications. In terms of future trends, the upstream of the industrial chain will be dominated by technologies such as electronic digital data processing, optical components, image communication, etc., the midstream will be dominated by technologies such as vehicle components, power devices, damping devices, etc., and the downstream will be dominated by technologies such as indoor games, medical diagnosis, identification, etc..
Keywords: K-means clustering algorithm? ? LDA theme model? ? technology theme evolution? ?text mining? ? VR