亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        FPC-Kmeans++專利聚類分析與技術(shù)主題識別研究

        2024-06-11 00:00:00劉俊王修來
        軟件工程 2024年5期

        關(guān)鍵詞:主題識別;專利聚類;NER;TF-IDF

        中圖分類號:TP391.1 文獻標志碼:A

        0 引言(Introduction)

        當今世界,科學技術(shù)作為第一生產(chǎn)力,已經(jīng)滲透于國家發(fā)展、社會進步和人民生活的方方面面。只有清楚地掌握當前技術(shù)的發(fā)展情況和創(chuàng)新趨勢,才能更好地幫助政府部門和企業(yè)制定合適的發(fā)展戰(zhàn)略[1]。技術(shù)主題識別作為一項關(guān)鍵技術(shù),旨在自動化地識別和分類文本數(shù)據(jù)中的技術(shù)主題,它可以幫助研究者從大規(guī)模的技術(shù)文獻、專利和技術(shù)博客等數(shù)據(jù)中發(fā)現(xiàn)與總結(jié)有關(guān)技術(shù)領(lǐng)域的最新進展、關(guān)鍵趨勢和重要領(lǐng)域[2]。

        近年來,專利作為知識、技術(shù)的重要載體之一越發(fā)受到社會的重視。專利中包含大量的科研成果和有價值的信息,能很好地反映目前科學技術(shù)的最新水平,對于識別新技術(shù)、預測技術(shù)發(fā)展趨勢、挖掘技術(shù)創(chuàng)新機會、揭示技術(shù)發(fā)展態(tài)勢以及判斷關(guān)鍵技術(shù)等都有著重要作用[3]。本文綜合運用NER-FPP(Named Entity Recognition with Feature Phrase Probability)算法、同義詞歸并算法和Kmeans++算法,構(gòu)建了基于特征短語簇的FPC-Kmeans++專利聚類分析與技術(shù)主題識別模型,為探索專利技術(shù)主題的精準識別提供了新途徑。

        1 相關(guān)工作(Related work)

        專利聚類分析作為一種技術(shù)主題識別方法,其目的是通過數(shù)據(jù)挖掘中的聚類分析方法對專利數(shù)據(jù)進行主題分析,得到專利數(shù)據(jù)中包含的主題數(shù)和主題類別。近年來的專利聚類分析研究中,許多學者在專利文本預處理上進行了改進。GUI等[4]先利用停用詞字典的方法對特征詞進行初步篩選,再用LDA(Latent Dirichlet Allocation)模型提取主題詞的方法對特征詞進行進一步篩選,將篩選后的特征詞用于后續(xù)的專利聚類和主題識別。姚長青等[5]利用信息熵的方法對向量空間進行降維,從而達到特征詞篩選和降維的目的。張國鋒等[6]也是使用構(gòu)建停用詞字典的方法對分詞結(jié)果進行初步篩選,再根據(jù)詞頻-逆向文件頻率(TF-IDF)算法的嵌入結(jié)果,選取每篇文本中實數(shù)化值最大的20個特征詞作為文本特征進行聚類。李慧等[7]先用停用詞表和高頻詞組提取進行初步篩選,再用人工智能術(shù)語表、組合詞判斷法和TF-IDF算法進一步篩選特征詞。

        綜上研究表明,當前的專利聚類研究雖然在專利文本預處理方面有很多不同的改進方法,但大部分都是以分詞結(jié)果作為基礎(chǔ)進行聚類的,其中專利分詞結(jié)果示例如表1所示。

        本文結(jié)合中文專利數(shù)據(jù)的特征研究發(fā)現(xiàn),以分詞結(jié)果為專利文本特征的方法存在以下不足。

        (1)專利數(shù)據(jù)中包含大量的專業(yè)術(shù)語、專業(yè)名詞和特定短語,這些文本通常以短語的形式出現(xiàn)并含有較為完整的特征信息,而分詞處理通常會將這些短語分割開,損失大量特征信息。

        (2)專利分詞結(jié)果中存在許多如“的”“一種”“本發(fā)明”等停用詞和對專利內(nèi)容識別意義不大的詞,這些詞在聚類分析過程中既會影響對文本內(nèi)容相似性的判斷,又會增加文本向量的維度,從而影響聚類分析的效果和效率。

        (3)不同的專利中包含許多同義詞或同義短語,這些詞或短語代表的意思和信息相同。如果不合并這些詞和短語,會影響對文本內(nèi)容相似性的判斷,也會增加文本向量的維度,從而影響聚類分析的效果和效率。

        (4)類別主題識別時,通常根據(jù)每個類別中的特征詞進行判斷,當用分詞結(jié)果進行聚類分析時,常常會因每個特征詞包含的信息太少而導致無法判斷每個類別的主題。

        基于上述問題,本文將深度學習方法引入聚類分析當中,提出了基于特征短語簇的FPC-Kmeans++專利聚類分析與技術(shù)主題識別模型,用特征短語簇替代原先的分詞結(jié)果進行聚類分析。首先,構(gòu)建NER-FPP特征短語識別算法,用該算法提取專利文本中含有專利特征信息較多的特征短語;其次,構(gòu)建同義短語歸并算法,將語義相同或相似的詞和短語歸并組成一個短語簇,用改進后的TF-IDF算法對專利文本進行向量化;最后,用Kmeans++對文本向量進行聚類和主題識別。該方法用命名實體識別算法提取的專利文本特征短語代替?zhèn)鹘y(tǒng)方法中的分詞結(jié)果,從而化解了因分詞而帶來的不足,同時構(gòu)建了用于特征短語的同義詞歸并算法,降低了同義詞對聚類分析的影響,并且在最后技術(shù)主題識別時,利用特征短語判斷每個類別對應(yīng)的領(lǐng)域主題更簡便。

        2 模型設(shè)計(Model design)

        本文提出的基于FPC-Kmeans++專利聚類分析與技術(shù)主題識別模型主要包括以下4個部分:(1)構(gòu)建NER-FPP特征短語提取算法,提取能表示專利信息的特征短語;(2)構(gòu)建同義短語歸并算法,將特征短語進行同義歸并,得到特征短語簇;(3)設(shè)計改進的TF-IDF算法,對特征短語按簇進行詞嵌入,將專利文本向量化;(4)構(gòu)建Kmeans++聚類算法,對專利文本向量進行聚類。專利聚類分析模型流程圖如圖1所示。

        2.1 NER-FPP特征短語提取算法

        命名實體識別(Named Entity Recognition,NER)是數(shù)據(jù)挖掘領(lǐng)域的關(guān)鍵技術(shù)之一[8],是指在一組具有相似屬性的項中,能夠清楚地標識出某個特定項的單詞或短語[9]。命名實體識別的概念是在第六屆語義理解會議(MUC-6)[10]上提出的,之后被學者廣泛研究。最早的命名實體識別是基于規(guī)則匹配實現(xiàn)的,主要依賴手工模板和字典等方法[11]。之后,發(fā)展出了基于機器學習的方法,常用的有最大熵算法[12]、支持向量機算法(SVM)[13]、隱馬爾可夫算法(HMM)[14]和條件隨機場算法(CRF)[15]。近年來,隨著深度學習的發(fā)展,基于人工神經(jīng)網(wǎng)絡(luò)的命名實體識別已成為命名實體識別的主流方法[16],目前使用較為廣泛的算法有LSTM-CRF(Long Short-Term Memory-Conditional Random Field)和BERT-BiLSTM-CRF(Bidirectional Encoder Representations fromTransformers-Bidirectional Long Short-Term Memory-ConditionalRandom Field)。

        結(jié)合本文的需求以及命名實體識別的任務(wù),本文以命名實體識別算法為基礎(chǔ)設(shè)計了NER-FPP特征短語提取算法。其中,本文通過對專利數(shù)據(jù)的研究發(fā)現(xiàn):中文專利數(shù)據(jù)中的特征短語一般只在同類專利中出現(xiàn)的次數(shù)較多,在其他類專利中不常出現(xiàn),所以其文檔頻率較低;通常的停用詞不僅出現(xiàn)頻率過高,其文檔頻率也高;對于不常見的詞,出現(xiàn)頻率和文檔頻率都較低?;谏鲜霭l(fā)現(xiàn),本文提出了特征短語概率(FeaturePhrase Probability,F(xiàn)PP)這一特征信息,并將其納入特征短語提取算法中。通過引入FPP作為輔助信息進行學習,以提高特征短語提取算法的性能。

        本文提出的NER-FPP算法結(jié)構(gòu)如圖2所示,該算法以BERT(Bidirectional Encoder Representations from Transformers)作為嵌入層,搭配BiLSTM(Bidirectional Long Short-TermMemory)特征提取層并融入了FPP特征信息,最后輸入CRF(Conditional Random Field)層進行序列預測。其中,F(xiàn)PP可量化為相鄰字組成詞的概率乘以文檔頻率,它分為兩個值,一個是當前字與前一個字組成的詞的綜合概率Pl,另一個是當前字與后一個字組成的詞的綜合概率Pr,其計算公式如下:

        2.2 同義短語歸并算法與專利文本向量化算法

        由于不同專利申請者的表述習慣不同,所以專利文本會產(chǎn)生一些語義相同或相似但表述有細微差別的特征短語。如果將這些短語分別當作一個維度進行聚類,不僅會增加專利聚類的計算量,還會影響專利聚類的效果?;诖?,本文利用中文文本結(jié)構(gòu)和語義存在的相關(guān)性特征構(gòu)建了一個同義短語歸并算法,其目的是將語義相同或相似的短語歸并組成一個短語簇。

        同 義短語歸并算法流程如下。

        (1)從特征短語集合中抽出一個特征短語,作為一個新的類別。

        (2)判斷集合中剩余每個短語是否與該短語同義,將同義短語從短語集合中抽出并放入該短語所在的類別中。

        (3)重復“步驟(1)”和“步驟(2)”,直到特征短語集合為空。

        判斷同義詞的方法如圖3所示。

        專利文本向量化是指將專利文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值向量的過程,以便計算機理解和處理專利文本數(shù)據(jù)。其中,詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TFIDF)算法是一種常用的文本向量化方法[17]。TF表示該詞在文檔中的頻率,用于度量關(guān)鍵詞在文檔中的重要性,IDF表示逆文檔頻率,用于度量關(guān)鍵詞在全文檔中的重要性。TF-IDF算法就是用TF和IDF的乘積度量文檔中某關(guān)鍵詞的重要性??紤]到特征短語本身就具有一定的特征信息,所以該短語是否存在,對于聚類的影響比存在頻率更大,故應(yīng)當增大該短語頻率為零和不為零的區(qū)別,所以本文使用了改進后的TF算法,其計算公式如下:

        2.3 Kmeans++聚類分析算法

        Kmeans算法是經(jīng)典的基于劃分的聚類方法,用于將數(shù)據(jù)集中文本向量劃分為不同的簇[18]。而手肘法是一種用于確定Kmeans聚類中最佳簇數(shù)的啟發(fā)式方法。在聚類分析中,經(jīng)常將Kmeans算法與手肘法結(jié)合用于確定數(shù)據(jù)集的最佳簇數(shù)。對于本文而言,Kmeans算法與手肘法結(jié)合得到的最佳簇數(shù)即最佳技術(shù)主題數(shù)。

        Kmeans算法是MACQUEEN[19]在1967年提出的一類經(jīng)典的算法。該算法具有快速、簡單且容易理解的特點,至今仍然應(yīng)用廣泛。同時,該算法也存在不足之處,它初始聚類中心是隨機確定的,初始聚類中心的不同,可能會導致聚類結(jié)果的不同,還有可能導致算法收斂很慢,甚至出現(xiàn)聚類出錯的情況。對此,ARTHUR等[20]提出了Kmeans++算法,該算法改進了選擇初始聚類中心的方法,其算法流程如下。

        (1)從數(shù)據(jù)集中隨機選取一個樣本點作為初始聚類中心c。

        (2)計算每個樣本點與當前已有聚類中心之間的最短距離,用D(x)表示。

        (7)重復“步驟(5)”“步驟(6)”,直到聚類中心的位置不再變化。

        由于事先并不知道最佳的類別數(shù),因此需要用手肘法進一步確定專利數(shù)據(jù)的最佳K 值。手肘法的核心思想是隨著聚類數(shù)K 的不斷增大,對專利數(shù)據(jù)的劃分會更加詳細,每個分組(簇)的聚合程度會不斷地提高誤差平方,SSE(最小誤差平方和)會逐漸減小;當K 值小于真實聚類數(shù)時,K 的增大會大幅度提升每個分組的聚合程度,此時SSE的下降幅度會很大;當K 值與真實聚類數(shù)相等時,再增大K 的取值,聚類的回報程度會迅速降低,所以SSE對應(yīng)的曲線斜率會驟然變大,之后隨著K 值的繼續(xù)增大而趨向于0,也就是說K 與SSE的關(guān)系是一個手肘形狀的折線圖,而“肘部”對應(yīng)的K 值則為當前聚類數(shù)據(jù)集的真實聚類數(shù)。

        3 實證研究(Empirical research)

        3.1 數(shù)據(jù)采集

        本文從企知道專利數(shù)據(jù)庫中,以“無人機”為關(guān)鍵詞對中文專利進行檢索,收集了2019—2021年申請的發(fā)明專利數(shù)據(jù),共59 930件,截至2022年7月,其中有效專利有13 959件,在審中的專利有37 358件。本文使用13 959條有效專利作為聚類分析的原始數(shù)據(jù),以其中的摘要作為聚類分析的文本數(shù)據(jù)。

        3.2 設(shè)備參數(shù)本文使用的設(shè)備參數(shù)表如表2所示。

        3.3 特征短語提取

        為了從專利數(shù)據(jù)中提取出特征短語,本文使用了NERFPP特征短語提取算法。其中,BERT預訓練層采用Google官方的Bert_Base_Chinese版本,該版本設(shè)置了12 層的Transformer,12個Attention-head,768個隱藏層單元,整個預訓練層有110 MB參數(shù)。在實驗的過程中,將BERT預訓練層的參數(shù)中的最大句子長度設(shè)置為500,batchsize設(shè)置為8,學習率為1e-6,dropout設(shè)置為0.5,BiLSTM 中隱藏層的維度為128,訓練的輪數(shù)設(shè)置為20。

        本文用隨機抽取法從專利數(shù)據(jù)中抽取2 000件專利數(shù)據(jù)作為訓練NER-FPP模型的數(shù)據(jù)集,其中1 400件專利數(shù)據(jù)作為訓練集、300件專利數(shù)據(jù)作為驗證集、300件專利數(shù)據(jù)作為測試集,并用精確率(P)、召回率(R)和F1值作為該模型效果的評價指標,具體公式如下:

        為了進一步驗證本文使用的NER-FPP模型的效果,選取了如下幾種模型進行性能對比:① 傳統(tǒng)的HMM(HiddenMarkov Model)模型;② 機器學習CRF 模型;③ 深度學習BiLSTM模型;④ 深度學習BiLSTM-CRF 模型;⑤ 傳統(tǒng)的BERT-BiLSTM-CRF模型。將以上5種命名實體識別模型與NER-FPP模型應(yīng)用于本文的數(shù)據(jù)集中進行實驗,特征短語提取模型實驗結(jié)果如表3所示。

        從實驗結(jié)果可以看出,與傳統(tǒng)的機器學習模型HMM、CRF相比,深度學習模型各方面的性能都優(yōu)于傳統(tǒng)的機器學習模型的性能。在深度學習模型中加入序列標注CRF的BiLSTM-CRF模型,其各方面的性能都優(yōu)于BiLSTM 模型的性能,說明CRF在考慮了序列的全局標簽信息后,對模型的性能有一定程度的優(yōu)化。在BiLSTM-CRF模型中加入BERT模型后,F(xiàn)1值提升了2.63百分點,由此可以說明,BERT模型對于文本數(shù)據(jù)字符之間的關(guān)系特征提取及其性能提升有明顯的效果。NER-FPP模型在傳統(tǒng)的BERT-BiLSTM-CRF模型上加入了特征短語頻率特征參數(shù),其F1值提升了0.91百分點,這也說明詞頻信息在本文的無人機專利命名實體識別中是一個關(guān)鍵信息。

        3.4 同義短語歸并與專利文本向量化

        為了提升專利聚類的效果,本文先對特征短語進行了歸并處理,將語義相同或相似的短語歸并到同一個類別中,再通過改進后的TF-IDF算法對每個短語類別進行詞嵌入,進而對專利摘要進行向量化。

        本文通過訓練好的NER-FPP模型對13 959條有效專利數(shù)據(jù)進行特征短語提取,最終得到8 492個特征短語,通過同義短語歸并算法最終得到1 497個特征短語類別,其歸并結(jié)果如表 4所示。之后,使用改進后的TF-IDF算法對歸并后的特征短語簇進行向量化處理,得到專利文本的向量化表示,專利文本向量如表 5所示,以此作為Kmeans++聚類的輸入數(shù)據(jù)。

        3.5 聚類分析與主題識

        別首先通過Kmeans++算法對由特征短語表示的專利向量進行聚類計算,得到了不同K 值的聚類結(jié)果,其次計算每個K值對應(yīng)的SSE,構(gòu)建SSE 和聚類個數(shù)K 的關(guān)系圖,最后通過手肘法確定最佳K 值。實驗中,K 值的取值范圍為2~24,對每個K 值進行聚類時的測試次數(shù)設(shè)置為50。同時,為了驗證本文提出的FPC-Kmeans++模型的聚類效果,將基于分詞的Kmeans++模型和LDA-Kmeans++模型作為對照模型進行實驗分析。

        FPC-Kmeans++模型誤差平方和曲線如圖4所示。從圖4中可以看出,當K 達到10時,SSE的下降幅度開始大幅減小。根據(jù)手肘法可以確定10為FPCKmeans++模型的最佳K 值。Kmeans++模型和LDA-Kmeans++模型誤差平方和曲線如圖5、圖6所示。從圖5、圖6可以看出,基于分詞的Kmeans++模型聚類效果并不明顯,無法有效地判斷出最佳K值,而LDA-Kmeans++模型利用LDA對分詞結(jié)果進行篩選,效果比Kmeans++模型好,但仍不能很好地判斷最佳K 值。

        通過FPC-Kmeans++模型聚類后,本文的專利數(shù)據(jù)分成10個簇,為了進一步驗證其聚類效果,本文還對每個簇中專利涉及的IPC(國際專利分類)號進行了頻率統(tǒng)計,統(tǒng)計了每個簇排名前15位的IPC號及其出現(xiàn)的頻率,并繪制成熱力圖,如圖7所示。

        從圖7中可以看出,各個聚類簇代表的技術(shù)主題之間的IPC號雖然存在交集,但是仍可觀察到簇與簇之間呈現(xiàn)出較為清晰的劃分。這一現(xiàn)象不僅明確了不同技術(shù)領(lǐng)域的邊界,而且進一步說明了本文提出的FPC-Kmeans++模型在專利聚類分析領(lǐng)域的高效性和可靠性。

        為了識別每個簇所代表的技術(shù)主題,本文對每個簇中的特征短語類進行分析,并結(jié)合每個特征短語簇代表的信息與專家指導,最終概括出10個簇分別代表的技術(shù)領(lǐng)域,聚類簇及對應(yīng)特征短語簇表如表6所示。

        實驗結(jié)果表明,本文研究的企知道專利數(shù)據(jù)庫中2019—2021年的中文無人機專利數(shù)據(jù),可以分為10個技術(shù)主題領(lǐng)域:無人機主體領(lǐng)域,農(nóng)業(yè)植保領(lǐng)域,編隊控制、協(xié)同控制領(lǐng)域,導航系統(tǒng)、飛行路線領(lǐng)域,電源保障領(lǐng)域,偵察監(jiān)視領(lǐng)域,情報通信領(lǐng)域,救援救護領(lǐng)域,輔助設(shè)備領(lǐng)域及運輸運載領(lǐng)域。

        4 結(jié)論(Conclusion)

        本文通過對專利文本進行分析,提出FPC-Kmeans++專利聚類分析與技術(shù)主題識別模型,其核心是將專利摘要中的特征短語簇作為元數(shù)據(jù),對專利進行聚類分析并實現(xiàn)主題識別。首先,通過NER-FPP算法提取摘要文本中的特征短語;其次,結(jié)合同義詞歸并算法求得特征短語簇,再通過增強TF-IDF算法求解特征短語的向量表示;最后,通過Kmeans++算法進行專利聚類分析與技術(shù)主題識別。實驗結(jié)果表明,NER-FPP特征短語提取算法可以很好地完成專利特征短語提取的任務(wù),并且其F1值高于其他特征短語提取算法的F1值;FPC-Kmeans++模型可以較好地對專利數(shù)據(jù)進行聚類劃分;FPC-Kmeans++模型的聚類效果更好,可以更好地確定最佳K 值;本研究概括了無人機專利領(lǐng)域的10個技術(shù)主題領(lǐng)域。

        本研究目前在無人機專利領(lǐng)域進行了探索,后續(xù)將探索其他領(lǐng)域。同時,特征短語提取模型需要制作訓練集,后續(xù)在其他領(lǐng)域的研究可以利用遷移學習減少模型訓練的成本,或者訓練一個可用于多個專利領(lǐng)域的通用模型。

        作者簡介:

        劉 ?。?998-),男,碩士生。研究領(lǐng)域:大數(shù)據(jù)挖掘與分析。

        王修來(1970-),男,教授,博士。研究領(lǐng)域:大數(shù)據(jù)挖掘與分析,數(shù)據(jù)智能應(yīng)用。本文通信作者。

        久久久极品少妇刺激呻吟网站| 亚洲午夜无码视频在线播放| 精品一区二区三区不老少妇| 久久精品国产亚洲av成人文字| 国产三级精品三级| 播放灌醉水嫩大学生国内精品 | 日本人妻97中文字幕| 亚洲高清乱码午夜电影网| 亚洲精品国精品久久99热一| 超碰观看| 女同一区二区三区在线观看| 内射合集对白在线| 久久精品国产亚洲av瑜伽| av在线免费播放网站| 99精品国产一区二区三区| 久久成人国产精品免费软件| 在线成人福利| 在线精品亚洲一区二区三区 | 亚洲精品视频在线一区二区| 4399理论片午午伦夜理片| 最新无码国产在线播放| 手机在线观看成年人视频| 亚洲 日韩 激情 无码 中出| 久久久久亚洲av无码专区导航| 亚洲精品乱码久久久久99| 亚洲一区二区三区重口另类 | 日本又黄又爽gif动态图| 亚洲无码视频一区:| 亚洲国产精品悠悠久久琪琪| 久久精品国产亚洲av无码娇色 | 一级r片内射视频播放免费 | 狠狠躁18三区二区一区| 国产露脸精品产三级国产av| 精品国产亚洲av麻豆尤物| 亚洲国产精品久久无人区| 性欧美videofree高清精品| 综合色天天久久| 久久一区二区视频在线观看| 亚洲精品乱码久久久久久中文字幕| 污污污污污污WWW网站免费| 国内自拍视频在线观看h|