李夢瑤 劉彤 蔣貴凰
摘 要:文章從專利挖掘的途徑、技術(shù)方法和現(xiàn)有軟件三個方面分析了我國專利挖掘研究現(xiàn)狀,指出專利挖掘技術(shù)突破的難點,并預(yù)測專利挖掘未來的發(fā)展趨勢。
關(guān)鍵詞:專利挖掘;方法技術(shù);研究現(xiàn)狀
1 概述
隨著經(jīng)濟的發(fā)展和社會的進步,專利是技術(shù)信息的一種有效載體,它能夠切實反映技術(shù)的發(fā)展前景,進一步為國家科技和經(jīng)濟的發(fā)展做出貢獻。相比較一般的信息,從專利中提取而來的信息更加。所謂專利挖掘,其實就是指在產(chǎn)品技術(shù)研發(fā)中,對所取得的技術(shù)成果從技術(shù)和法律層面進行剖析、整理、拆分和篩選,從而進一步確定申請專利的技術(shù)創(chuàng)新點和技術(shù)方案。專利挖掘的目的可分為成果保護型和包圍攔截型。成果保護型是指將技術(shù)創(chuàng)新成果申請專利以進行法律化、權(quán)力化,有效保護企業(yè)的技術(shù)研發(fā)成果不被他人抄襲復(fù)制;包圍攔截型是指針對競爭對手的技術(shù)或產(chǎn)品路線進行研究,進而制定相應(yīng)的專利挖掘規(guī)劃和技術(shù)研發(fā)策略,提前設(shè)置外圍專利,干擾和遏制競爭對手的專利策略。
專利挖掘作為一種對專利進行保護和深度研究的技術(shù)手段,在當今這個科技和經(jīng)濟高速發(fā)展的時代具有其存在的重要意義和價值。通過專利挖掘,可以更加準確地了解企業(yè)技術(shù)創(chuàng)新成果的主要發(fā)明點,對專利申請文件設(shè)計,提升了專利申請的綜合質(zhì)量;可以對技術(shù)創(chuàng)新成果進行全面、充分、有效的保護,梳理并掌握可能具有專利申請價值的各主要技術(shù)點,避免出現(xiàn)專利保護的漏洞;通過專利挖掘,可以培育鞏固企業(yè)自身的核心競爭力,也可以與競爭對手形成有效對抗甚至在相關(guān)技術(shù)要點上構(gòu)成反制;能夠盡早發(fā)現(xiàn)競爭對手有威脅的重要專利,便于企業(yè)進行規(guī)避設(shè)計以規(guī)避專利風險。簡言之,對于企業(yè)而言,做好專利挖掘,有利于實現(xiàn)法律權(quán)利和商業(yè)收益最大化、專利侵權(quán)風險最小化的目標。文章將從專利挖掘的途徑、技術(shù)方法和現(xiàn)有軟件三方面分析我國專利挖掘的研究現(xiàn)狀,指出專利挖掘技術(shù)突破的難點,并預(yù)測專利挖掘未來的發(fā)展趨勢。
2 專利挖掘方法途徑
從一般角度來說,專利挖掘主要可分為兩種:從項目任務(wù)出發(fā)和從某一創(chuàng)新點出發(fā)。
專利挖掘的重要研究途徑便是從項目任務(wù)出發(fā),該途徑從項目的任務(wù)出發(fā),按找出完成任務(wù)的組成、分析各組成的技術(shù)要素、找出各技術(shù)要素的創(chuàng)新點、根據(jù)創(chuàng)新點總結(jié)技術(shù)方案的次序進行。
第二種途徑則是從某一創(chuàng)新點出發(fā)的方法來進行專利挖掘。與第一種方式不同,該途徑是從項目的某創(chuàng)新點出發(fā),按找出該創(chuàng)新點的關(guān)聯(lián)因素、找出各關(guān)聯(lián)因素其他創(chuàng)新點、根據(jù)其他創(chuàng)新點總結(jié)技術(shù)方案的次序進行。
若按照以上兩種途徑完成挖掘,則會形成若干個大相徑庭的技術(shù)方案,在這些技術(shù)方案中,專利授權(quán)要求是最基本的特征,由此便能夠產(chǎn)生大量的專利申請素材,企業(yè)的專利部門可以依照以上兩種方法的鉆研所得出的結(jié)論并在此基礎(chǔ)上分析篩選,從而確定專利申請的主題。從整體上講,兩個挖掘途徑的出發(fā)點不同,因此使用者可以根據(jù)不同的出發(fā)點選擇使用。兩者可以單獨使用,也可以有取舍地聯(lián)合使用。
3 專利挖掘技術(shù)方法
專利挖掘主要包括以下兩種技術(shù):一種是分類技術(shù);另一種是信息檢索技術(shù)。前者基于自然語言處理技術(shù),而后者通常根據(jù)分類技術(shù)在專利挖掘中應(yīng)用的頻率高及其重要性,這里主要介紹文本分類技術(shù)以及相關(guān)研究。
3.1 文本分類
文本分類就是將未標注類別的文檔分到已定義好的類別中去的一種方法。文本分類系統(tǒng)從某種意義上講也是一種分類器--目的是實現(xiàn)對文檔標注類別信息,而文本分類系統(tǒng)通常也都是采用指導(dǎo)學習的方法進行構(gòu)造。主要操作步驟是:(1)準備一部分標注了類別信息的訓(xùn)練樣文章檔集合;(2)在若干訓(xùn)練樣本的基礎(chǔ)中上,結(jié)合某種學習算法訓(xùn)練分類模型的參數(shù),即可得到文本分類系統(tǒng);(3)用這個分類系統(tǒng)對新的文檔進行分類,從而進一步實現(xiàn)自動對未知樣本進行分類。[1]
文本分類的方法的發(fā)展歷程分為兩個階段:基于規(guī)則的文本分類、基于統(tǒng)計機器學習模型的文本分類[2]。而基于統(tǒng)計機器學習模型的文本分類方法克服了基于規(guī)則系統(tǒng)的不足,不需人工操作,可以很快地適應(yīng)各種應(yīng)用,同時在分類效率和準確率上均有很大提高。
3.2 特征選取方法
文本的特征選取的方法有很多例如文檔頻度DF(DocumentFrequeney)、類別頻度CF(ClassFrequeney)、信息增益(informationGain)等。[3]
文檔頻度的目的是根據(jù)某一個特征在語料中出現(xiàn)的頻數(shù)按照文本頻度的大小排序,根據(jù)某一個特定值,去掉頻率最低的詞,選取前N個特征詞。但是文檔頻度的假設(shè)前提是低頻詞沒有信息量。這種方法的優(yōu)點有很多,例如:算法簡單、計算量小、易于實現(xiàn)以及減少了很多不必要的特征空間維數(shù);而缺點也恰恰是也存在于這些被去掉的維數(shù)中可能存在一些低頻詞可能含有大量的信息,去掉會影響分類效果。
類別頻度的目的是根據(jù)某一個特征在語料中出現(xiàn)的頻度大小排序,從而設(shè)定文檔頻度的特定值,去掉頻率兩極端的特征詞。類別頻度的假設(shè)前提是大多數(shù)類別中都出現(xiàn)或只在個別類別中出現(xiàn)的詞含有的信息量很小。
信息增益是指計算特征含有的信息量和對預(yù)測樣本類別所能提供的信息量。它考慮了一個詞出現(xiàn)或不出現(xiàn)對類別提供的信息量差別,這種方法在分類任務(wù)中效果不錯,但計算量很大。
3.3 特征權(quán)重的計算方法
特征權(quán)重計算是為文本特征詞賦予一定的權(quán)重,得到文本特征向量。常見的幾種特征選取的方法有:布爾權(quán)重、詞頻權(quán)重、tf×idf-權(quán)重、tfc-權(quán)重等。
3.4 分類器
分類器有很多種,常用的有KNN分類器、最大嫡、支持向量機、貝葉斯等,他們的存在可以應(yīng)用于大量文本分類問題,有助于提高工作效率。
4 專利挖掘軟件
目前的我國專利挖掘軟件仍停留在統(tǒng)計分析和引用分析層面,國外部分軟件提供了少量的文本挖掘功能。深度專利挖掘仍需要借助文本挖掘軟件或利用Java語言自行編寫程序。這里對國內(nèi)外現(xiàn)有的專利分析軟件進行對比分析,了解專利挖掘軟件現(xiàn)狀。專利分析軟件大都是集成系統(tǒng),其功能涵蓋了專利檢索、專利下載、專利分析、專利管理以及軟件系統(tǒng)管理等。
目前,在中國也有很多專利分析軟件。主要有:PIAS專利信息分析系統(tǒng)、東方靈盾中外專利檢索及戰(zhàn)略分析平臺、大為PatentEX專利信息創(chuàng)新平臺、恒和頓HIT-恒庫等等。在這其中PIAS專利信息分析系統(tǒng)是由國家知識產(chǎn)權(quán)局開發(fā)的,情報和信息相對比較可信和直觀;東方靈盾公司的分析軟件相比國內(nèi)其它軟件,具有更加強大而個性化的檢索和分析功能;大為PatentEX和恒和頓系統(tǒng)都較為穩(wěn)定。在統(tǒng)計分析和引用分析方面,國內(nèi)軟件均較為成熟,專利地圖也制作的直觀且清晰,但深入挖掘功能不足。
國外的專利分析軟件起步較早,目前主要有:Derwent Analytics、TDA、Aureka、VantagePoint、Patentlab-Ⅱ、BizInt Smart Charts、STN AnaVist、Focust、Invention Machine。國外的軟件多是細節(jié)性地針對不同的需求應(yīng)運而生,相對而言自動化程度高,功能也十分全面。
目前就中外專利分析軟件的比較而言,國內(nèi)的專利分析軟件在數(shù)據(jù)庫的信息量、自動化的程度、數(shù)據(jù)挖掘的深度上都不如國外軟件發(fā)展地那么成熟,各個軟件的功能傾向性也沒有那么強,專利挖掘和專利地圖制作也以國外軟件較為領(lǐng)先,但國外專利軟件在文本挖掘應(yīng)用方面也存在一些空白。我國專利分析軟件要有新的突破不僅要借鑒國外的方法技術(shù),還需要進一步將文本挖掘技術(shù)應(yīng)用到專利挖掘中,實現(xiàn)更深入的分析。
5 專利挖掘的難點
5.1 專利普通詞匯識別
專有名詞的檢測主要可以通過以下幾種方法進行:利用命名實體的內(nèi)部規(guī)律,設(shè)計規(guī)則從而進行進一步識別;設(shè)計統(tǒng)計模型,利用人工標注語料庫進行參數(shù)訓(xùn)練,然后把新詞識別的問題當作序列標記的問題進行解碼等方法。[4]普通新詞,就是新涌現(xiàn)的詞匯,這種直接影響對專利理解的詞匯未被收錄到分詞詞典中,在進行專利檢索的過程中新詞識別會遇到以下幾個難點:(1)專有新名詞未被進行特殊標記,以歐美人名為例,大寫在檢索中更容易辨識,而中文姓名同文本一樣;(2)專有名詞有歧義理解。中文的人名和地名經(jīng)常會分不清,比如咸陽、秦嶺等;(3)新詞組詞結(jié)構(gòu)過于隨意,在檢索過程中無規(guī)律可循;(4)由于多音字或者斷句關(guān)系,新詞用字與上下文聯(lián)系干擾,例如,武漢市長江大橋。
5.2 生僻術(shù)語抽取識別
關(guān)于術(shù)語抽取方面的研究大致可以歸納為三方面:一般抽取方法的研究、錯誤來源的分析以及糾正生僻術(shù)語。一般的專利術(shù)語抽取也就是從專利中提取出重要技術(shù)相關(guān)詞匯的過程。Tseng Yuenhsien等短語抽取的方法相對而言比較簡單,主要是在依靠詞頻和單詞間的包含關(guān)系。[5]在專利的術(shù)語抽取研究中,錯誤的抽取一般有兩部分構(gòu)成,一部分是正確的抽取結(jié)果,一部分是錯誤的抽取結(jié)果的左邊界或者右邊界造成的干擾。術(shù)語抽取研究是制約專利挖掘領(lǐng)域發(fā)展的基礎(chǔ),盡管近幾年專利領(lǐng)域的發(fā)展勢頭一直不錯,但是很多研究的方面仍有許多沒有攻破的難點。從某種意義上講,術(shù)語抽取的研究就是最為代表的難點之一。術(shù)語抽取研究的難點不僅僅在于工具難和技術(shù)難,更在于它需要有效的試驗措施進行驗證。在這其中,構(gòu)建標準答案的集合也是最重要以及最難的部分。目前看來,面向生僻術(shù)語識別的標準答案在術(shù)語抽取研究中很稀少,而現(xiàn)如今的專利發(fā)展已經(jīng)不僅僅局限于大眾化的專利,相較于一般的術(shù)語,由于生僻術(shù)語作為一類特別的術(shù)語抽取的研究對象,其抽取難度會更大。最主要的原因是現(xiàn)有的高詞頻統(tǒng)計之中,很多噪聲會在處理低詞頻的候選生僻術(shù)語時引入。這在一定程度上講對相關(guān)研究的一般的文本挖掘研究的規(guī)范會有一定的影響,也會成為制約該領(lǐng)域發(fā)展的主要問題。
6 結(jié)束語
文章介紹目前專利挖掘的現(xiàn)狀,主要包括思路與途徑、方法技術(shù)和分析軟件的介紹以及技術(shù)難點剖析。文章在提出專利挖掘途徑形成的流程圖基礎(chǔ)上,并沒有按照常規(guī)的數(shù)據(jù)挖掘與文本挖掘兩條縱線進行展開,而是重點介紹了較難的文本挖掘技術(shù),分析出專利挖掘的難點。當然,經(jīng)過這些分析與總結(jié),發(fā)現(xiàn)現(xiàn)階段的專利挖掘技術(shù)雖然已經(jīng)取得一定成果,形成了一些通用的專利軟件,但是在文本信息處理特別是詞匯識別方面仍存在很大漏洞,一部分是因為中文本身的特點,同一個字表示的意思豐富;一部分是當今世界都在面臨的問題,生僻術(shù)語的統(tǒng)計還沒有形成體系,許多問題還需要進一步解決,但是隨著研究的深入與實用化,專利挖掘?qū)⒛軌蚋玫陌l(fā)現(xiàn)專利信息中隱含的技術(shù)知識,推動科技創(chuàng)新。
參考文獻
[1]陳文亮.面向文本分類的文本特征學習技術(shù)研究[D].東北大學,2005.
[2]王會珍.文本內(nèi)容分類和主題追蹤關(guān)鍵技術(shù)研究[D].東北大學,2008.
[3]陳文亮.面向文本分類的文本特征學習技術(shù)研究[D].東北大學,2005.
[4]劉曉東.劉大有.數(shù)據(jù)挖掘?qū)@C述電子學報[J].2003,12(12A).
[5]屈鵬.國內(nèi)外專利挖掘研究(2005-2014)綜述[J].圖書情報工作,2014,20(58):131-137.