馬建紅 張少光 曹文斌 王晨曦
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院 天津 300401)
科技創(chuàng)新在某種意義上來說即為功能的創(chuàng)新,利用相關(guān)的聚類技術(shù)可以將各個行業(yè)中的專利進(jìn)行基于功能的自動聚類,有利于研究人員便捷地獲取相關(guān)技術(shù)領(lǐng)域中的集成專利信息,幫助他們了解當(dāng)前最新技術(shù)的發(fā)展趨勢,提高企業(yè)的自助研發(fā)能力和企業(yè)競爭力,具有重要的現(xiàn)實(shí)意義。
近年來,為了打破專利的限制,提升自身的創(chuàng)新能力和競爭力,研究人員在專利領(lǐng)域開展了大量研究,并產(chǎn)出了大量的研究成果。江屏等[1]利用專利自身原有的結(jié)構(gòu)化信息,利用國際專利分類號(International Patent Classification,IPC)聚類分析和當(dāng)前領(lǐng)域相關(guān)技術(shù)成熟度結(jié)合,從而有效地確定了待規(guī)避的專利群和專利規(guī)避目標(biāo),突破創(chuàng)新,對打破專利壁壘具有重大意義。功能的創(chuàng)新進(jìn)而引起產(chǎn)品技術(shù)的變革,陳旭等[2]將專利處理為技術(shù)功效對的形式,利用聚類技術(shù),對技術(shù)功效矩陣進(jìn)行聚類,能夠清楚地了解當(dāng)前的技術(shù)熱點(diǎn)和研發(fā)熱點(diǎn),為研究人員指明了技術(shù)創(chuàng)新方向。這些方法主要是應(yīng)用統(tǒng)計(jì)學(xué)模型進(jìn)行的專利聚類,如詞袋法和詞頻-逆文檔頻率,它們都舍棄了文本中大量的語義信息,并且存在步驟繁雜、聚類時(shí)間較長等缺點(diǎn)。
目前,深度學(xué)習(xí)算法在自然語言處理領(lǐng)域中取得了十分出色的成果,將深度學(xué)習(xí)應(yīng)用到專利領(lǐng)域也逐漸成為一種趨勢。有研究人員開始將詞向量[3]引入到專利文本表示方面,很好地彌補(bǔ)了傳統(tǒng)算法在表達(dá)詞語和語義方面上的不足,挖掘出了詞語與詞語之間更深層次的聯(lián)系,取得了不錯的效果。Lee等[4]以最新的BERT模型為基礎(chǔ),對模型進(jìn)行微調(diào),之后利用其進(jìn)行專利分類。由于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)具有很好的學(xué)習(xí)復(fù)雜、高維和非線性映射關(guān)系的能力,所以結(jié)合CNN和詞嵌入的方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)分類效果得到很大提升。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)能夠有效地利用序列數(shù)據(jù)的序列信息,但是記憶能力因?yàn)榫嚯x的增長而變得越來越弱,存在梯度爆炸和梯度消失等相關(guān)問題。循環(huán)神經(jīng)網(wǎng)絡(luò)的變體——長短期記憶網(wǎng)絡(luò)[5](Long Short-Term Memory, LSTM)能夠解決因距離而導(dǎo)致的依賴問題。Xiao等[6]建立了基于Word2vec和LSTM的分類模型,提取專利文本的序列化特征,學(xué)習(xí)序列之間更深層次的關(guān)系,能夠更好地對專利進(jìn)行分類。近年來,注意力機(jī)制逐漸成為深度學(xué)習(xí)領(lǐng)域研究的一個熱點(diǎn),被大量應(yīng)用于QA 、情感分析、句子級別摘要[7]等方面,都獲得了不錯的效果。與此同時(shí),注意力機(jī)制也在專利領(lǐng)域進(jìn)行了應(yīng)用,馬建紅等[8]利用長短期記憶網(wǎng)絡(luò)與基于注意力機(jī)制聯(lián)合雙向LSTM相結(jié)合提取專利特征,進(jìn)行專利文本分類,準(zhǔn)確率也達(dá)到了70%以上。
傳統(tǒng)的特征提取和聚類過程通常是分開執(zhí)行的,許多研究傾向于特征提取[9-10]或者聚類算法的研究[11]。針對以上問題,本文結(jié)合深度學(xué)習(xí)技術(shù),提出多角度特征提取(Multiple Angle Feature, MAF)混合模型,其能夠融合功能信息對專利進(jìn)行動態(tài)聚類,在聚類過程中動態(tài)調(diào)整網(wǎng)絡(luò)參數(shù)以獲得更好的性能。
本文提出的模型框架圖如圖1所示。首先對專利文本進(jìn)行前期預(yù)處理工作,包括數(shù)據(jù)清洗、分詞去除停用詞等相關(guān)操作;然后標(biāo)注出專利文本中的功能語句,經(jīng)過MAF混合模型提取出專利文本的特征表示;最終利用K-means算法對專利文本進(jìn)行基于功能的聚類。為了優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和獲得最好的聚類效果,可以將聚類結(jié)果的倒置輪廓系數(shù)的對數(shù)視為神經(jīng)網(wǎng)絡(luò)的損失函數(shù),以共同優(yōu)化特征提取和聚類過程中的參數(shù),通過調(diào)整網(wǎng)絡(luò)損失函數(shù)實(shí)現(xiàn)動態(tài)聚類。
圖1 模型框架圖
本文使用的原始語料是專利的摘要和標(biāo)題,在語料處理方面,本實(shí)驗(yàn)采用結(jié)巴分詞對專利文本進(jìn)行分詞,此外為了增加分詞的準(zhǔn)確性,百度百科條目也被添加到系統(tǒng)的同義詞庫中。例如“有利于石墨烯規(guī)?;a(chǎn)”進(jìn)行分詞后,得到“有利于 石墨烯 規(guī)?;?生產(chǎn)”。同時(shí)為了避免向量冗余,需要對文檔進(jìn)行停用詞處理。
接下來進(jìn)行標(biāo)注工作,對于不是功能信息句的專利語句標(biāo)注0,例如“0 將 金屬 鎂粉 裝入 管式 高溫爐 內(nèi)”,該語句并沒有表達(dá)出任何功能信息。將功能信息句分為9類,例如將“提高 生產(chǎn)效率”“適宜 大規(guī)模 生產(chǎn)”“有利于 規(guī)?;?生產(chǎn)”等歸為一類。
MAF混合模型結(jié)構(gòu)如圖2所示。底層主要是專利文本的向量化表示。中間層主要由深層語義表示和功能詞語關(guān)注兩部分組成。其中深層語義表示部分由雙向長短期記憶網(wǎng)絡(luò)聯(lián)合注意力機(jī)制(BiLSTM-Attention)部分、CNN卷積神經(jīng)網(wǎng)絡(luò)部分、改進(jìn)的權(quán)值潛在狄利克雷分布(Weight Latent Dirichlet Allocation,WLDA)主題提取部分,來共同學(xué)習(xí)專利文本的深層語義。功能詞語關(guān)注部分使用注意力機(jī)制加強(qiáng)對重點(diǎn)功能詞語的關(guān)注,最后采用并行融合的方式對特征向量進(jìn)行融合,構(gòu)造全局特征向量,作為聚類實(shí)驗(yàn)的輸入。
詞嵌入是將文本中的每個詞表示為空間中低維、稠密的向量。在當(dāng)今自然語言處理的各項(xiàng)任務(wù)中,它能夠包含更多的詞與詞之間的含義,相對于基于傳統(tǒng)的TF-IDF詞頻向量或者LSA潛在語義向量效果更好,更適用于進(jìn)行深度的語義挖掘工作。
Word2vec是谷歌在2013年提出的詞嵌入訓(xùn)練方法。作為一種無監(jiān)督學(xué)習(xí)方式,它可以從大量文本語料中以無監(jiān)督的方式學(xué)習(xí)文本的語義知識。通過一個語義空間使得語義上相似的詞語在該空間內(nèi)距離很近[12-13]。為了充分利用專利文本的信息,擴(kuò)充詞向量的表示能力,本文最終使用Skip-Gram[14-15]方式來訓(xùn)練,得到200維的詞向量。
考慮到功能信息句長度和數(shù)量的限制,不能僅僅通過詞頻、詞性等特征進(jìn)行聚類,本文結(jié)合深度學(xué)習(xí)的方式提取了功能信息句的各種特征,最終的特征表示如下所示:
Vsemantic=VB⊕VC⊕VWL
(1)
VK=[Vsemantic,VAtt]
(2)
式中:VK代表聚類的輸入;Vsemantic表示深層語義特征;VAtt代表功能詞語特征;VB代表序列特征;VC代表文本嵌入特征;VML代表主題特征。
2.4.1深層語義表示
(1) BiLSTM-Attention提取序列特征。長短期記憶網(wǎng)絡(luò)是在RNN的基礎(chǔ)上進(jìn)行改進(jìn)的,它以RNN為基礎(chǔ)加入了門的思想,由輸入門、遺忘門、輸出門和一個cell單元組成。通過門的輸入、遺忘和輸出來保持和更新細(xì)胞狀態(tài),從而有效地克服了RNN在訓(xùn)練過程中出現(xiàn)的梯度消失和梯度爆炸的問題。本文需要結(jié)合功能信息句的上下文特征,因此采用BiLSTM提取上下文的信息,這種結(jié)構(gòu)考慮了序列的雙向特征,極大地改進(jìn)了功能信息句的語義表達(dá)。針對當(dāng)前語句內(nèi)的第i個詞,BiLSTM抽取的特征向量為:
xi=(Cl(xi),Cr(xi))
(3)
式中:Cl(xi)是xi左邊的專利文本向量;Cr(xi)是xi右邊的專利文本向量。
在功能信息句中,每個詞對于類別的貢獻(xiàn)度也是不同的,例如“用于對酒精濃度的檢測”“提高了Cu微晶的耐熱性能”等,就需要特別關(guān)注“酒精濃度”“檢測”“提高”“耐熱性”等詞語,在BiLSTM層后面增加注意力層[16]可以進(jìn)一步地提取專利文本之間更深層次的信息。
(4)
式中:ai為每個詞語的注意力權(quán)重。
(2) CNN提取嵌入特征。CNN在語義建模方面和特征提取方面都有著良好的表現(xiàn)和突破[17-18]。結(jié)合專利文本特性,本文需要提取功能信息句序列信息的不同嵌入特征。考慮到卷積核能夠捕獲文本信息的局部特征,擁有可并行化、運(yùn)行速度快等優(yōu)點(diǎn),本文將不同的局部特征進(jìn)行整合,得到功能信息句的嵌入特征。CNN首先輸入向量化的專利功能信息句,之后是卷積層和池化層,本文采用的是最大池化,對每個卷積核窗口內(nèi)的輸入向量選取最大值構(gòu)成新向量,公式如下:
C=max{Ci}
(5)
Z={C1,C2,…,Ct}
(6)
式中:t為卷積核的數(shù)量,在訓(xùn)練期間,為了防止過擬合現(xiàn)象以及加快訓(xùn)練速度加入了Dropout層,可以屏蔽部分隱層神經(jīng)元。最后是全連接層,全連接層是把以前的局部特征通過權(quán)值矩陣進(jìn)行重新組裝,最終輸出CNN文本嵌入特征向量。
(3) WLDA提取主題特征。當(dāng)前大部分的概率主題模型都以LDA[19]構(gòu)建的主題模型為基礎(chǔ),它是一個典型的由文檔、主題和詞匯構(gòu)成的三層貝葉斯概率生成模型,主要包含文檔-主題及主題-詞匯這兩個狄利克雷-多項(xiàng)式共軛結(jié)構(gòu)。利用LDA可以從文檔中發(fā)現(xiàn)潛在主題,并使用主題的概率分布描述整個文檔,挖掘文檔更深層的含義。
陳磊等[20]利用Word2vec詞向量與LDA詞向量相結(jié)合的方式進(jìn)行主題特征抽取。本文在其基礎(chǔ)上,改進(jìn)了特征抽取的方式:將每個主題的前h個高概率詞語作為子集表示主題,然后將它們的概率重新調(diào)整為詞語的權(quán)重;對主題詞進(jìn)行歸一化處理,即每個詞占主題的權(quán)重,將主題詞映射到Word2vec向量空間中;測量每個文檔到主題的余弦距離,以便獲得距離分布,然后將它們的距離重新調(diào)整為文檔到主題的權(quán)重,權(quán)重與主題向量的乘積即是WLDA特征向量。
文檔集D={d1,d2,…,dn},文檔中所有詞為{w1,w2,…,wm},訓(xùn)練文檔集D,LDA輸出主題集{t1,t2,…,tT}下每個詞語的概率,第i個詞對主題tj的貢獻(xiàn)度為θij,使用Word2vec訓(xùn)練文檔集D得到每個詞語固定維數(shù)的空間向量。對于每個主題向量,使用前h個高概率詞語表示,同時(shí)每個主題下的詞語概率被調(diào)整為權(quán)重,并將主題詞映射到向量空間中,公式如下:
(7)
(8)
式中:ωij表示第i個主題下第j個詞的權(quán)重;v(wz)表示詞wz訓(xùn)練后的詞向量;v(ti)代表第i個主題在詞向量空間下的坐標(biāo)。接下來計(jì)算每篇文檔與主題的距離,對距離進(jìn)行歸一化處理得到TDi,將TDi作為主題向量的權(quán)重值,則每篇文檔的主題特征向量VWL的計(jì)算公式如下:
VWL=TDiv(ti)
(9)
(10)
式中:dti表示文檔到主題i的距離。
2.4.2功能詞語關(guān)注層
對功能信息句進(jìn)行特征提取的過程中,由于句子中包含的詞數(shù)較少,難以提取關(guān)鍵信息。關(guān)鍵詞語對功能聚類十分重要,為了加強(qiáng)這些功能詞語在聚類中的作用,本文采用注意力機(jī)制直接從詞向量的基礎(chǔ)上學(xué)習(xí)每個詞的權(quán)重分類效果,如表1所示。
表1 功能重點(diǎn)詞分析
上文是將注意力機(jī)制與BiLSTM進(jìn)行串行組合,這部分則從詞向量的基礎(chǔ)上直接學(xué)習(xí)得到權(quán)重,公式如下:
Vi=tanh(Wxi+bw)
(11)
(12)
式中:aAtt[i]表示第i個詞對于當(dāng)前文本的重要程度;W和Va均為權(quán)重矩陣;bw為偏置。得到每個詞的權(quán)重后,假設(shè)句中的詞數(shù)為A,將詞向量按權(quán)重求和作為功能詞語部分的輸出,公式如下:
(13)
在獲得專利文本的所有特征語義表示后,本文將最終的所有特征表示提供給聚類層,以實(shí)現(xiàn)動態(tài)聚類操作。本文應(yīng)用K-means算法來進(jìn)行專利文本聚類,由于K-means容易受到初始聚類中心的影響,為了減少其隨機(jī)選取聚類中心的影響,盡量將初始聚類中心在空間上的分布與實(shí)際數(shù)據(jù)分布相同。本文采用量化的標(biāo)準(zhǔn)對相似數(shù)據(jù)進(jìn)行劃分。輪廓系數(shù)是由Kaufman等所提出,旨在基于距離對聚類效果進(jìn)行判斷。
Si是文本i的輪廓系數(shù),ai是文本i到同類其他文本的平均距離,bi是文本i到最近類別內(nèi)的所有文本的平均距離。文本數(shù)量為N,定義輪廓系數(shù)Sc如下:
(14)
(15)
通過特征提取和聚類過程的相互作用動態(tài)調(diào)整和優(yōu)化神經(jīng)網(wǎng)絡(luò),將所有神經(jīng)網(wǎng)絡(luò)的損失函數(shù)定義為輪廓系數(shù)倒數(shù)的對數(shù),輪廓系數(shù)越大,損失函數(shù)越小。若輪廓系數(shù)的取值范圍為[-1,1],輪廓系數(shù)越接近1,代表類內(nèi)平均距離遠(yuǎn)小于最小的類間平均距離,聚類效果越優(yōu)。通過最小化損失函數(shù)可以將整個神經(jīng)網(wǎng)絡(luò)調(diào)整到最優(yōu)結(jié)構(gòu),且聚類效果最優(yōu),公式如下:
(16)
定義損失函數(shù)后,可以根據(jù)損失函數(shù)對神經(jīng)網(wǎng)絡(luò)的特征提取過程進(jìn)行訓(xùn)練,調(diào)整和優(yōu)化網(wǎng)絡(luò)參數(shù)。直到損失函數(shù)達(dá)到最小,聚類過程結(jié)束。
按照國際專利分類的分類標(biāo)準(zhǔn),本文從無機(jī)化學(xué)類(C01)共4 336篇專利中人工抽取了5 303條功能信息句,將功能信息句分為9類,每個類代表不同的功能。Lai等[21]通過理論和實(shí)驗(yàn)證明,詞向量效果與數(shù)據(jù)的領(lǐng)域性很相關(guān),領(lǐng)域性越強(qiáng)的數(shù)據(jù)訓(xùn)練得出的詞向量表達(dá)效果越好,因此本文實(shí)驗(yàn)沒有添加大量的額外語料進(jìn)行訓(xùn)練。王飛等[22]的研究表明混合模型算法在訓(xùn)練效果上優(yōu)于單一模型算法,因此本實(shí)驗(yàn)采用Skip-gram+Negative Sampling+Hierarchical Softmax混合Word2vec模型訓(xùn)練詞向量。
聚類評價(jià)標(biāo)準(zhǔn)有如下三種:(1) Purity即準(zhǔn)確率,只需要計(jì)算正確聚類的文檔數(shù)占總文檔數(shù)的比例,該方法優(yōu)點(diǎn)是方便計(jì)算,缺點(diǎn)是無法對退化的聚類方法做出正確評價(jià)。(2) RI是一種利用排列組合原理對聚類進(jìn)行評價(jià)的手段。它將準(zhǔn)確率和召回率看的同等重要,無法對不同適用不同場景。(3) F-measure是基于RI方法衍生出的一個方法,可以將準(zhǔn)確率和召回率設(shè)置不同的權(quán)重,適用不同的場景需求。
為了驗(yàn)證本文模型的有效性,本文采用評價(jià)標(biāo)準(zhǔn)F-measure。該標(biāo)準(zhǔn)經(jīng)常被用作衡量聚類方法的精度,是一種平面和層次聚類結(jié)構(gòu)都適用的評價(jià)標(biāo)準(zhǔn),可以結(jié)合準(zhǔn)確率P和召回率R做出更為綜合的評價(jià)。其公式如下:
(17)
(18)
(19)
式中:nij表示類Cj中屬于Ki的專利文本數(shù)。聚類的總體F-measure值則可用每個類的最大F-measure值并采用該類的大小加權(quán)之后的綜合,公式如下:
(20)
式中:Dj是第j類的專利文本數(shù)量。F-measure取值范圍為(0,1),某值越大表示聚類效果越好。
實(shí)驗(yàn)參數(shù)的選取直接影響最后的實(shí)驗(yàn)結(jié)果。通過固定參數(shù)的方法,分別比較了100維、150維、200維,卷積核大小為3、4、5、6、7,滑動窗口的數(shù)量取16、32、64,Dropout的比例為0.3、0.5、0.6對實(shí)驗(yàn)結(jié)果的影響。通過對比以上參數(shù)對模型準(zhǔn)確率的影響,當(dāng)取表2所示的參數(shù)值時(shí)CNN模型取得了較好的分類結(jié)果。
表2 CNN相關(guān)實(shí)驗(yàn)參數(shù)
使用不同大小的卷積核可以抽取句子的不同嵌入特征,對嵌入特征進(jìn)行合并能夠抽取更加全面的特征。卷積層采用ReLU激活函數(shù)避免了神經(jīng)元的失活現(xiàn)象,并且可以加快神經(jīng)網(wǎng)絡(luò)的收斂,不會影響卷積層的效果。使用Adam優(yōu)化算法,計(jì)算每個參數(shù)的自適應(yīng)學(xué)習(xí)率,收斂速度更快,學(xué)習(xí)效果更有效。
BiLSTM-Attention的參數(shù)也使用了同樣維度的詞向量,層數(shù)為2層,隱藏層大小對比了128和256,同時(shí)加上Attention層。經(jīng)過對比,隱藏層大小為128時(shí)效果最好,同樣使用Adam作為優(yōu)化算法,不斷迭代更新網(wǎng)絡(luò)參數(shù),加快模型收斂速度。相關(guān)參數(shù)如表3所示。
表3 BiLSTM-Attention相關(guān)實(shí)驗(yàn)參數(shù)
3.4.1動態(tài)聚類有效性驗(yàn)證
為了驗(yàn)證模型動態(tài)反饋部分的有效性,本文在相同實(shí)驗(yàn)條件下進(jìn)行了兩組不同的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果的F-measure值如表4所示。Baseline實(shí)驗(yàn)是單獨(dú)的混合模型,但是并沒有加上動態(tài)反饋部分;Baseline[Feedback]實(shí)驗(yàn)是在Baseline實(shí)驗(yàn)的基礎(chǔ)上加入了動態(tài)反饋部分。
表4 對比實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,隨著專利文本數(shù)量的增加,模型準(zhǔn)確性在逐步提升,聚類性能改善明顯,從而證明了動態(tài)反饋聚類部分的有效性。同時(shí),專利數(shù)量越來越多,兩個實(shí)驗(yàn)的準(zhǔn)確率都得到了不同程度的提升,說明實(shí)驗(yàn)中可能存在過擬合現(xiàn)象,增大專利文本數(shù)量情況會有所改善。
3.4.2 WLDA抽取主題特征有效性驗(yàn)證
為了驗(yàn)證模型中WLDA抽取主題特征部分的有效性,在相同條件下本文設(shè)置了如下對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。Baseline實(shí)驗(yàn)是本文提出的基于MAF混合模型動態(tài)聚類,并沒有引入WLDA部分;Baseline[LDA]實(shí)驗(yàn)是在Baseline的基礎(chǔ)上,將WLDA部分替換為標(biāo)準(zhǔn)的LDA;Baseline[WLDA]實(shí)驗(yàn)是在Baseline的基礎(chǔ)上,引入了WLDA部分。
表5 對比實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)B、實(shí)驗(yàn)C與實(shí)驗(yàn)A相比F-measure值分別提升了0.4百分點(diǎn)、0.824百分點(diǎn),證明了引入主題特征對本文混合模型聚類是有效的。同時(shí)實(shí)驗(yàn)C與實(shí)驗(yàn)B相比也有相對提升,也證明了本文提出的WLDA抽取主題特征的有效性,更能對主題進(jìn)行特征表示。
3.4.3模型有效性驗(yàn)證
為了驗(yàn)證整個混合動態(tài)模型的有效性,本文設(shè)置了如下對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示,其中對比實(shí)驗(yàn)解釋如下:
TF-IDF+K-means:將功能信息句轉(zhuǎn)換為文本向量,交由K-means完成聚類。
CNN+K-means:采用和混合模型相同的輸入,單獨(dú)利用CNN進(jìn)行特征提取,交由K-means完成聚類。
BiLSTM-Attention+K-means: 采用和混合模型相同的輸入,單獨(dú)利用BiLSTM-Attention進(jìn)行特征提取,交由K-means完成聚類。
WLDA+K-means: 采用和混合模型相同的輸入,單獨(dú)利用WLDA進(jìn)行特征提取,交由K-means完成聚類。
Baseline實(shí)驗(yàn)是整個MAF混合動態(tài)聚類部分。
Baseline[-BA]實(shí)驗(yàn)是去除BiLSTM-Attention部分,利用其提取語義特征,同時(shí)加入動態(tài)反饋聚類部分。
Baseline[-CNN]實(shí)驗(yàn)是去除CNN部分,利用其提取嵌入特征,同時(shí)加入動態(tài)反饋聚類部分。
Baseline[-WLDA]實(shí)驗(yàn)是去除WLDA部分,利用其提取主題特征,同時(shí)加入動態(tài)反饋聚類部分。
Baseline[-Attention]實(shí)驗(yàn)是去除功能詞語關(guān)注部分,同時(shí)加入動態(tài)反饋聚類部分。
表6 對比實(shí)驗(yàn)結(jié)果
本文利用輪廓系數(shù)來評估該模型的聚類效果,如圖3 所示。
圖3 輪廓系數(shù)
實(shí)驗(yàn)結(jié)果表明,本文提出的混合模型對專利文本融合功能信息的聚類有明顯提升。實(shí)驗(yàn)A與實(shí)驗(yàn)B相比表現(xiàn)得并不是很好,因?yàn)樵颊Z料中存在很多噪聲,CNN對功能信息句進(jìn)行特征提取可以降低部分噪聲,F(xiàn)-measure值得到了提高,同時(shí)也減少了聚類時(shí)間,證明了CNN對特征提取的有效性。實(shí)驗(yàn)A與實(shí)驗(yàn)C相比,聚類的F-measure值提高了將近10百分點(diǎn),聚類時(shí)間也縮短了近2 s,證明了BiLSTM-Attention對特征提取的有效性。實(shí)驗(yàn)A與實(shí)驗(yàn)D相比,F(xiàn)-measure雖然提高有限,但是也間接證明了本文改進(jìn)的LDA提取主題向量的有效性。
Baseline系列實(shí)驗(yàn)與其他實(shí)驗(yàn)相比不管是F-measure還是運(yùn)行效率都得到了不同程度的提升。實(shí)驗(yàn)F、G、H證明了深層語義表示部分對聚類效果的有效性;通過實(shí)驗(yàn)E和實(shí)驗(yàn)I可知,加入功能詞語注意部分對聚類效果是有效的。由圖3可知,當(dāng)K=9時(shí)輪廓系數(shù)也是最高的,也證明了面向功能信息混合模型動態(tài)聚類模型的有效性。
本文提出了面向功能信息的相似專利動態(tài)聚類混合模型。在詞向量的基礎(chǔ)上,通過結(jié)合深層語義表示部分和功能詞語注意部分,生成專利文本的特征表示,并且提出了一種反饋策略來動態(tài)調(diào)整和優(yōu)化網(wǎng)絡(luò)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文提出的模型表現(xiàn)出較好的性能,證明了其有效性。
特征提取仍然是自然語言處理領(lǐng)域的一個難點(diǎn),未來將繼續(xù)完善該模型的特征提取過程,進(jìn)一步探索特征提取與聚類的深度融合,提高聚類的準(zhǔn)確性。