姜琦紅 王黎明
摘 要:大數(shù)據(jù)時代已經到來,發(fā)達國家多已進行政府大數(shù)據(jù)管理,我國政府也應把握這一機遇,尤其是在信息數(shù)據(jù)資源急速增長的知識產權領域。由于經濟飛速發(fā)展和科技的不斷創(chuàng)新,商標和專利等數(shù)據(jù)激增。目前對于知識產權的保護技術和管理水平已無法滿足現(xiàn)代社會的要求。本論文簡要闡述了專利分析的現(xiàn)狀,介紹了大數(shù)據(jù)的應用和特點以及大數(shù)據(jù)時代帶來的變化,探討了利用大數(shù)據(jù)技術的專利信息集成與分析系統(tǒng)的應用趨勢。
關鍵詞:大數(shù)據(jù);專利分析;數(shù)據(jù)挖掘;可視化
DOI:10.16640/j.cnki.37-1222/t.2019.07.123
1 引言
大數(shù)據(jù)密集型時代,利用有效整合的專業(yè)數(shù)據(jù)進行科研發(fā)現(xiàn)是一種趨勢。專利是一種綜合性的信息資源,與期刊論文、交易、標準和訴訟等信息聯(lián)系密切。在專利分析的過程中,為了獲得有效、全面的分析成果,往往需要整合大量、相關的信息資源。因此,基于大數(shù)據(jù)本身的應用,無疑能夠更好的實現(xiàn)以及促進整體專利分析技術的發(fā)展,讓其更好的實現(xiàn)專利信息整合以及分析,促進專利技術的有序發(fā)展。
2 大數(shù)據(jù)技術概述
2012年,高德納(Gartner)將大數(shù)據(jù)的定義修改為:“大數(shù)據(jù)是一種巨大的、高速的、可變的信息資產,需要新的處理方法來增強決策能力?!笨偟膩碚f這三個性質很好的概括了大數(shù)據(jù)的特性以及發(fā)展方向,大數(shù)據(jù)的建設必須依靠計算機對數(shù)據(jù)的統(tǒng)計,只有通過數(shù)據(jù)才能確定最終的客觀結果。后來高德納(Gartner)再次修改了對大數(shù)據(jù)的定義,在量、速以及多變的基礎之上添加了第四個性質即真實性,大數(shù)據(jù)只有通過計算機才能對數(shù)據(jù)進行客觀的處理從而得到有效的結果。歐美發(fā)達國家早在二十一世紀初便開始對大數(shù)據(jù)的發(fā)展保持重視,政府部門在大數(shù)據(jù)開發(fā)上投入大量資金的同時,數(shù)據(jù)挖掘也正開始探索分析大數(shù)據(jù)的方法。阿里巴巴董事局主席馬云則直接地指出,雖然阿里巴巴是全球最大的零售平臺,但是阿里巴巴不是一家零售公司,而是一家數(shù)據(jù)公司。
麥塔集團(Matita Group)的分析師道格·萊尼(Doug Laney)指出數(shù)據(jù)增長的挑戰(zhàn)和機遇在于三個方向:數(shù)量、速度和多樣性?;诖耍琁BM進一步將數(shù)據(jù)增長的挑戰(zhàn)和機遇擴展為五個“V”,即:(1)容量(Volume),大數(shù)據(jù)時代的數(shù)據(jù)量已達到PB(1024TB)甚至EB(1024PB);(2)種類(Variety),大數(shù)據(jù)時代中有著十分復雜的數(shù)據(jù)類型,包括結構化數(shù)據(jù)和非結構化數(shù)據(jù);(3)速度(Velocity),快速處理方式是大數(shù)據(jù)獲得有效信息的重要途徑?,F(xiàn)今數(shù)據(jù)更新速度十分迅速,只有快速地獲得數(shù)據(jù)才能更好的整合所需信息;(4)低價值密度(value):合理地運用大數(shù)據(jù)技術,盡可能地用低成本獲取高價值的信息;(5)真實(Veracity),您需要從大數(shù)據(jù)中過濾所有非真實數(shù)據(jù)以獲取真實信息。
3 專利信息整合與分析現(xiàn)狀
一般認為,專利分析起源于1949年Seidel提出的專利文獻重要性的專利引文分析概念,但在上世紀90年代后,隨著信息、網絡和數(shù)據(jù)庫技術的發(fā)展,專利分析才在企業(yè)戰(zhàn)略和競爭分析中的應用得以實現(xiàn)。
4 大數(shù)據(jù)時代專利信息整合與分析系統(tǒng)應用
基于大數(shù)據(jù)分析的主要內容和專利分析的現(xiàn)狀,未來大數(shù)據(jù)專利數(shù)據(jù)集成與分析系統(tǒng)的應用和發(fā)展可以包括以下幾個方面:
4.1 基于語義引擎數(shù)據(jù)采集處理
在過去的機器檢索中,計算機只能識別字符匹配級別的用戶輸入信息,不能理解信息的含義,特別是在搜索專利信息的過程中。檢索策略的設定和調整都需要人為操作。而隨著計算機技術和人工智能的發(fā)展,通過對網絡大數(shù)據(jù)的語義標注處理,使計算機能夠從語義層級理解輸入信息,例如,Apple的語音識別工具Siri,專利檢索系統(tǒng)Patentics等。都采用了語義引擎。在此基礎上發(fā)展專利數(shù)據(jù)采集,例如實現(xiàn)語義專利信息檢索,可以降低對專利分析人員個人能力的依賴,降低專利分析的成本。
4.2 基于數(shù)據(jù)挖掘算法、預測分析和數(shù)據(jù)質量管理的專利分析
大數(shù)據(jù)分析的核心是數(shù)據(jù)挖掘算法。從海量數(shù)據(jù)中挖掘和使用價值信息,研究物體之間的相關性,從而發(fā)掘物體之間的差異。知聯(lián)系,利用這種相關性信息,可以實現(xiàn)定制化分析,并將專利分析的結果與企業(yè)需求結合得更加緊密。通過預測分析模型,可以從海量數(shù)據(jù)中獲得存在規(guī)律性的信息,從而可以利用這些信息預測專利的發(fā)展趨勢和技術,甚至行業(yè)的發(fā)展趨勢。它允許企業(yè)根據(jù)專利分析的結果對專利的布局做出預先判斷,由于專利發(fā)布的滯后,技術開發(fā)路線可以盡量避免影響專利分析的準確性。通過數(shù)據(jù)質量管理方法,借助質量管理方法和標準化數(shù)據(jù)處理流程對數(shù)據(jù)進行處理,它確保了高質量和可靠性的分析結果。
4.3 基于視覺分析的報告形成和結果顯示
可視化分析的作用是可以將數(shù)據(jù)分析結果自動轉換為圖表。我們可以使用圖表的簡單直觀功能顯示復雜的大數(shù)據(jù)分析結果。樣的分析對這就像選擇不同的呈現(xiàn)方法和顯示內容一樣,可以有效降低專利分析的門檻,擴大用戶群的使用范圍。
5 結語
大數(shù)據(jù)時代的到來為專利分析提供了新的技術工具和技術思路,這對于從業(yè)者來說既是挑戰(zhàn)又是機遇。未來,專利分析的重要研究方向是充分利用大數(shù)據(jù)分析,提高專利分析的用戶體驗,對專利信息進行數(shù)據(jù)挖掘和可視化預測。
參考文獻:
[1]趙向陽,王亮,梁晨隴.基于專利數(shù)據(jù)的大數(shù)據(jù)技術發(fā)展研究[J].軟件,2017,38(08):190-196.
[2]汪滿容,劉桂鋒,孫華平.基于專利地圖的全球大數(shù)據(jù)技術競爭態(tài)勢研究[J].現(xiàn)代情報,2017,37(01):148-155.
[3]李鵬飛,盧瑾,辛一.基于專利的大數(shù)據(jù)技術發(fā)展情報分析及戰(zhàn)略研究[J].情報雜志,2014,33(09):45-50.
[4]姚衛(wèi)浩,金江軍.專利大數(shù)據(jù)及其發(fā)展對策[J].中國高??萍?,2014
(06):17-18.
[5]梁建軍.專利“大數(shù)據(jù)”[N].中國知識產權報,2013-08-21(005).
[6] Karki M M S. Patent citation analysis: A policy analysis tool[J].World Patent Information,1997,19(04):269-212.
*為通訊作者