關鍵詞:主題識別;專利聚類;NER;TF-IDF
中圖分類號:TP391.1 文獻標志碼:A
0 引言(Introduction)
當今世界,科學技術作為第一生產力,已經滲透于國家發(fā)展、社會進步和人民生活的方方面面。只有清楚地掌握當前技術的發(fā)展情況和創(chuàng)新趨勢,才能更好地幫助政府部門和企業(yè)制定合適的發(fā)展戰(zhàn)略[1]。技術主題識別作為一項關鍵技術,旨在自動化地識別和分類文本數據中的技術主題,它可以幫助研究者從大規(guī)模的技術文獻、專利和技術博客等數據中發(fā)現與總結有關技術領域的最新進展、關鍵趨勢和重要領域[2]。
近年來,專利作為知識、技術的重要載體之一越發(fā)受到社會的重視。專利中包含大量的科研成果和有價值的信息,能很好地反映目前科學技術的最新水平,對于識別新技術、預測技術發(fā)展趨勢、挖掘技術創(chuàng)新機會、揭示技術發(fā)展態(tài)勢以及判斷關鍵技術等都有著重要作用[3]。本文綜合運用NER-FPP(Named Entity Recognition with Feature Phrase Probability)算法、同義詞歸并算法和Kmeans++算法,構建了基于特征短語簇的FPC-Kmeans++專利聚類分析與技術主題識別模型,為探索專利技術主題的精準識別提供了新途徑。
1 相關工作(Related work)
專利聚類分析作為一種技術主題識別方法,其目的是通過數據挖掘中的聚類分析方法對專利數據進行主題分析,得到專利數據中包含的主題數和主題類別。近年來的專利聚類分析研究中,許多學者在專利文本預處理上進行了改進。GUI等[4]先利用停用詞字典的方法對特征詞進行初步篩選,再用LDA(Latent Dirichlet Allocation)模型提取主題詞的方法對特征詞進行進一步篩選,將篩選后的特征詞用于后續(xù)的專利聚類和主題識別。姚長青等[5]利用信息熵的方法對向量空間進行降維,從而達到特征詞篩選和降維的目的。張國鋒等[6]也是使用構建停用詞字典的方法對分詞結果進行初步篩選,再根據詞頻-逆向文件頻率(TF-IDF)算法的嵌入結果,選取每篇文本中實數化值最大的20個特征詞作為文本特征進行聚類。李慧等[7]先用停用詞表和高頻詞組提取進行初步篩選,再用人工智能術語表、組合詞判斷法和TF-IDF算法進一步篩選特征詞。
綜上研究表明,當前的專利聚類研究雖然在專利文本預處理方面有很多不同的改進方法,但大部分都是以分詞結果作為基礎進行聚類的,其中專利分詞結果示例如表1所示。
本文結合中文專利數據的特征研究發(fā)現,以分詞結果為專利文本特征的方法存在以下不足。
(1)專利數據中包含大量的專業(yè)術語、專業(yè)名詞和特定短語,這些文本通常以短語的形式出現并含有較為完整的特征信息,而分詞處理通常會將這些短語分割開,損失大量特征信息。
(2)專利分詞結果中存在許多如“的”“一種”“本發(fā)明”等停用詞和對專利內容識別意義不大的詞,這些詞在聚類分析過程中既會影響對文本內容相似性的判斷,又會增加文本向量的維度,從而影響聚類分析的效果和效率。
(3)不同的專利中包含許多同義詞或同義短語,這些詞或短語代表的意思和信息相同。如果不合并這些詞和短語,會影響對文本內容相似性的判斷,也會增加文本向量的維度,從而影響聚類分析的效果和效率。
(4)類別主題識別時,通常根據每個類別中的特征詞進行判斷,當用分詞結果進行聚類分析時,常常會因每個特征詞包含的信息太少而導致無法判斷每個類別的主題。
基于上述問題,本文將深度學習方法引入聚類分析當中,提出了基于特征短語簇的FPC-Kmeans++專利聚類分析與技術主題識別模型,用特征短語簇替代原先的分詞結果進行聚類分析。首先,構建NER-FPP特征短語識別算法,用該算法提取專利文本中含有專利特征信息較多的特征短語;其次,構建同義短語歸并算法,將語義相同或相似的詞和短語歸并組成一個短語簇,用改進后的TF-IDF算法對專利文本進行向量化;最后,用Kmeans++對文本向量進行聚類和主題識別。該方法用命名實體識別算法提取的專利文本特征短語代替?zhèn)鹘y方法中的分詞結果,從而化解了因分詞而帶來的不足,同時構建了用于特征短語的同義詞歸并算法,降低了同義詞對聚類分析的影響,并且在最后技術主題識別時,利用特征短語判斷每個類別對應的領域主題更簡便。
2 模型設計(Model design)
本文提出的基于FPC-Kmeans++專利聚類分析與技術主題識別模型主要包括以下4個部分:(1)構建NER-FPP特征短語提取算法,提取能表示專利信息的特征短語;(2)構建同義短語歸并算法,將特征短語進行同義歸并,得到特征短語簇;(3)設計改進的TF-IDF算法,對特征短語按簇進行詞嵌入,將專利文本向量化;(4)構建Kmeans++聚類算法,對專利文本向量進行聚類。專利聚類分析模型流程圖如圖1所示。
2.1 NER-FPP特征短語提取算法
命名實體識別(Named Entity Recognition,NER)是數據挖掘領域的關鍵技術之一[8],是指在一組具有相似屬性的項中,能夠清楚地標識出某個特定項的單詞或短語[9]。命名實體識別的概念是在第六屆語義理解會議(MUC-6)[10]上提出的,之后被學者廣泛研究。最早的命名實體識別是基于規(guī)則匹配實現的,主要依賴手工模板和字典等方法[11]。之后,發(fā)展出了基于機器學習的方法,常用的有最大熵算法[12]、支持向量機算法(SVM)[13]、隱馬爾可夫算法(HMM)[14]和條件隨機場算法(CRF)[15]。近年來,隨著深度學習的發(fā)展,基于人工神經網絡的命名實體識別已成為命名實體識別的主流方法[16],目前使用較為廣泛的算法有LSTM-CRF(Long Short-Term Memory-Conditional Random Field)和BERT-BiLSTM-CRF(Bidirectional Encoder Representations fromTransformers-Bidirectional Long Short-Term Memory-ConditionalRandom Field)。
結合本文的需求以及命名實體識別的任務,本文以命名實體識別算法為基礎設計了NER-FPP特征短語提取算法。其中,本文通過對專利數據的研究發(fā)現:中文專利數據中的特征短語一般只在同類專利中出現的次數較多,在其他類專利中不常出現,所以其文檔頻率較低;通常的停用詞不僅出現頻率過高,其文檔頻率也高;對于不常見的詞,出現頻率和文檔頻率都較低。基于上述發(fā)現,本文提出了特征短語概率(FeaturePhrase Probability,FPP)這一特征信息,并將其納入特征短語提取算法中。通過引入FPP作為輔助信息進行學習,以提高特征短語提取算法的性能。
本文提出的NER-FPP算法結構如圖2所示,該算法以BERT(Bidirectional Encoder Representations from Transformers)作為嵌入層,搭配BiLSTM(Bidirectional Long Short-TermMemory)特征提取層并融入了FPP特征信息,最后輸入CRF(Conditional Random Field)層進行序列預測。其中,FPP可量化為相鄰字組成詞的概率乘以文檔頻率,它分為兩個值,一個是當前字與前一個字組成的詞的綜合概率Pl,另一個是當前字與后一個字組成的詞的綜合概率Pr,其計算公式如下:
2.2 同義短語歸并算法與專利文本向量化算法
由于不同專利申請者的表述習慣不同,所以專利文本會產生一些語義相同或相似但表述有細微差別的特征短語。如果將這些短語分別當作一個維度進行聚類,不僅會增加專利聚類的計算量,還會影響專利聚類的效果?;诖耍疚睦弥形奈谋窘Y構和語義存在的相關性特征構建了一個同義短語歸并算法,其目的是將語義相同或相似的短語歸并組成一個短語簇。
同 義短語歸并算法流程如下。
(1)從特征短語集合中抽出一個特征短語,作為一個新的類別。
(2)判斷集合中剩余每個短語是否與該短語同義,將同義短語從短語集合中抽出并放入該短語所在的類別中。
(3)重復“步驟(1)”和“步驟(2)”,直到特征短語集合為空。
判斷同義詞的方法如圖3所示。
專利文本向量化是指將專利文本數據轉換為數值向量的過程,以便計算機理解和處理專利文本數據。其中,詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TFIDF)算法是一種常用的文本向量化方法[17]。TF表示該詞在文檔中的頻率,用于度量關鍵詞在文檔中的重要性,IDF表示逆文檔頻率,用于度量關鍵詞在全文檔中的重要性。TF-IDF算法就是用TF和IDF的乘積度量文檔中某關鍵詞的重要性??紤]到特征短語本身就具有一定的特征信息,所以該短語是否存在,對于聚類的影響比存在頻率更大,故應當增大該短語頻率為零和不為零的區(qū)別,所以本文使用了改進后的TF算法,其計算公式如下:
2.3 Kmeans++聚類分析算法
Kmeans算法是經典的基于劃分的聚類方法,用于將數據集中文本向量劃分為不同的簇[18]。而手肘法是一種用于確定Kmeans聚類中最佳簇數的啟發(fā)式方法。在聚類分析中,經常將Kmeans算法與手肘法結合用于確定數據集的最佳簇數。對于本文而言,Kmeans算法與手肘法結合得到的最佳簇數即最佳技術主題數。
Kmeans算法是MACQUEEN[19]在1967年提出的一類經典的算法。該算法具有快速、簡單且容易理解的特點,至今仍然應用廣泛。同時,該算法也存在不足之處,它初始聚類中心是隨機確定的,初始聚類中心的不同,可能會導致聚類結果的不同,還有可能導致算法收斂很慢,甚至出現聚類出錯的情況。對此,ARTHUR等[20]提出了Kmeans++算法,該算法改進了選擇初始聚類中心的方法,其算法流程如下。
(1)從數據集中隨機選取一個樣本點作為初始聚類中心c。
(2)計算每個樣本點與當前已有聚類中心之間的最短距離,用D(x)表示。
(7)重復“步驟(5)”“步驟(6)”,直到聚類中心的位置不再變化。
由于事先并不知道最佳的類別數,因此需要用手肘法進一步確定專利數據的最佳K 值。手肘法的核心思想是隨著聚類數K 的不斷增大,對專利數據的劃分會更加詳細,每個分組(簇)的聚合程度會不斷地提高誤差平方,SSE(最小誤差平方和)會逐漸減小;當K 值小于真實聚類數時,K 的增大會大幅度提升每個分組的聚合程度,此時SSE的下降幅度會很大;當K 值與真實聚類數相等時,再增大K 的取值,聚類的回報程度會迅速降低,所以SSE對應的曲線斜率會驟然變大,之后隨著K 值的繼續(xù)增大而趨向于0,也就是說K 與SSE的關系是一個手肘形狀的折線圖,而“肘部”對應的K 值則為當前聚類數據集的真實聚類數。
3 實證研究(Empirical research)
3.1 數據采集
本文從企知道專利數據庫中,以“無人機”為關鍵詞對中文專利進行檢索,收集了2019—2021年申請的發(fā)明專利數據,共59 930件,截至2022年7月,其中有效專利有13 959件,在審中的專利有37 358件。本文使用13 959條有效專利作為聚類分析的原始數據,以其中的摘要作為聚類分析的文本數據。
3.2 設備參數本文使用的設備參數表如表2所示。
3.3 特征短語提取
為了從專利數據中提取出特征短語,本文使用了NERFPP特征短語提取算法。其中,BERT預訓練層采用Google官方的Bert_Base_Chinese版本,該版本設置了12 層的Transformer,12個Attention-head,768個隱藏層單元,整個預訓練層有110 MB參數。在實驗的過程中,將BERT預訓練層的參數中的最大句子長度設置為500,batchsize設置為8,學習率為1e-6,dropout設置為0.5,BiLSTM 中隱藏層的維度為128,訓練的輪數設置為20。
本文用隨機抽取法從專利數據中抽取2 000件專利數據作為訓練NER-FPP模型的數據集,其中1 400件專利數據作為訓練集、300件專利數據作為驗證集、300件專利數據作為測試集,并用精確率(P)、召回率(R)和F1值作為該模型效果的評價指標,具體公式如下:
為了進一步驗證本文使用的NER-FPP模型的效果,選取了如下幾種模型進行性能對比:① 傳統的HMM(HiddenMarkov Model)模型;② 機器學習CRF 模型;③ 深度學習BiLSTM模型;④ 深度學習BiLSTM-CRF 模型;⑤ 傳統的BERT-BiLSTM-CRF模型。將以上5種命名實體識別模型與NER-FPP模型應用于本文的數據集中進行實驗,特征短語提取模型實驗結果如表3所示。
從實驗結果可以看出,與傳統的機器學習模型HMM、CRF相比,深度學習模型各方面的性能都優(yōu)于傳統的機器學習模型的性能。在深度學習模型中加入序列標注CRF的BiLSTM-CRF模型,其各方面的性能都優(yōu)于BiLSTM 模型的性能,說明CRF在考慮了序列的全局標簽信息后,對模型的性能有一定程度的優(yōu)化。在BiLSTM-CRF模型中加入BERT模型后,F1值提升了2.63百分點,由此可以說明,BERT模型對于文本數據字符之間的關系特征提取及其性能提升有明顯的效果。NER-FPP模型在傳統的BERT-BiLSTM-CRF模型上加入了特征短語頻率特征參數,其F1值提升了0.91百分點,這也說明詞頻信息在本文的無人機專利命名實體識別中是一個關鍵信息。
3.4 同義短語歸并與專利文本向量化
為了提升專利聚類的效果,本文先對特征短語進行了歸并處理,將語義相同或相似的短語歸并到同一個類別中,再通過改進后的TF-IDF算法對每個短語類別進行詞嵌入,進而對專利摘要進行向量化。
本文通過訓練好的NER-FPP模型對13 959條有效專利數據進行特征短語提取,最終得到8 492個特征短語,通過同義短語歸并算法最終得到1 497個特征短語類別,其歸并結果如表 4所示。之后,使用改進后的TF-IDF算法對歸并后的特征短語簇進行向量化處理,得到專利文本的向量化表示,專利文本向量如表 5所示,以此作為Kmeans++聚類的輸入數據。
3.5 聚類分析與主題識
別首先通過Kmeans++算法對由特征短語表示的專利向量進行聚類計算,得到了不同K 值的聚類結果,其次計算每個K值對應的SSE,構建SSE 和聚類個數K 的關系圖,最后通過手肘法確定最佳K 值。實驗中,K 值的取值范圍為2~24,對每個K 值進行聚類時的測試次數設置為50。同時,為了驗證本文提出的FPC-Kmeans++模型的聚類效果,將基于分詞的Kmeans++模型和LDA-Kmeans++模型作為對照模型進行實驗分析。
FPC-Kmeans++模型誤差平方和曲線如圖4所示。從圖4中可以看出,當K 達到10時,SSE的下降幅度開始大幅減小。根據手肘法可以確定10為FPCKmeans++模型的最佳K 值。Kmeans++模型和LDA-Kmeans++模型誤差平方和曲線如圖5、圖6所示。從圖5、圖6可以看出,基于分詞的Kmeans++模型聚類效果并不明顯,無法有效地判斷出最佳K值,而LDA-Kmeans++模型利用LDA對分詞結果進行篩選,效果比Kmeans++模型好,但仍不能很好地判斷最佳K 值。
通過FPC-Kmeans++模型聚類后,本文的專利數據分成10個簇,為了進一步驗證其聚類效果,本文還對每個簇中專利涉及的IPC(國際專利分類)號進行了頻率統計,統計了每個簇排名前15位的IPC號及其出現的頻率,并繪制成熱力圖,如圖7所示。
從圖7中可以看出,各個聚類簇代表的技術主題之間的IPC號雖然存在交集,但是仍可觀察到簇與簇之間呈現出較為清晰的劃分。這一現象不僅明確了不同技術領域的邊界,而且進一步說明了本文提出的FPC-Kmeans++模型在專利聚類分析領域的高效性和可靠性。
為了識別每個簇所代表的技術主題,本文對每個簇中的特征短語類進行分析,并結合每個特征短語簇代表的信息與專家指導,最終概括出10個簇分別代表的技術領域,聚類簇及對應特征短語簇表如表6所示。
實驗結果表明,本文研究的企知道專利數據庫中2019—2021年的中文無人機專利數據,可以分為10個技術主題領域:無人機主體領域,農業(yè)植保領域,編隊控制、協同控制領域,導航系統、飛行路線領域,電源保障領域,偵察監(jiān)視領域,情報通信領域,救援救護領域,輔助設備領域及運輸運載領域。
4 結論(Conclusion)
本文通過對專利文本進行分析,提出FPC-Kmeans++專利聚類分析與技術主題識別模型,其核心是將專利摘要中的特征短語簇作為元數據,對專利進行聚類分析并實現主題識別。首先,通過NER-FPP算法提取摘要文本中的特征短語;其次,結合同義詞歸并算法求得特征短語簇,再通過增強TF-IDF算法求解特征短語的向量表示;最后,通過Kmeans++算法進行專利聚類分析與技術主題識別。實驗結果表明,NER-FPP特征短語提取算法可以很好地完成專利特征短語提取的任務,并且其F1值高于其他特征短語提取算法的F1值;FPC-Kmeans++模型可以較好地對專利數據進行聚類劃分;FPC-Kmeans++模型的聚類效果更好,可以更好地確定最佳K 值;本研究概括了無人機專利領域的10個技術主題領域。
本研究目前在無人機專利領域進行了探索,后續(xù)將探索其他領域。同時,特征短語提取模型需要制作訓練集,后續(xù)在其他領域的研究可以利用遷移學習減少模型訓練的成本,或者訓練一個可用于多個專利領域的通用模型。
作者簡介:
劉 ?。?998-),男,碩士生。研究領域:大數據挖掘與分析。
王修來(1970-),男,教授,博士。研究領域:大數據挖掘與分析,數據智能應用。本文通信作者。