亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Sentence-BERT的專利技術(shù)主題聚類研究
        ——以人工智能領(lǐng)域?yàn)槔?/h1>
        2024-03-01 00:38:44阮光冊周萌葳
        情報(bào)雜志 2024年2期
        關(guān)鍵詞:專利技術(shù)文檔專利

        阮光冊 周萌葳

        (華東師范大學(xué)經(jīng)濟(jì)與管理學(xué)部信息管理系 上海 200241)

        0 引 言

        專利是技術(shù)創(chuàng)新的最大信息來源,囊括了全球90%以上的最新技術(shù)情報(bào)[1]。專利技術(shù)主題聚類,可以有效剖析領(lǐng)域發(fā)展現(xiàn)狀和共性技術(shù),把握技術(shù)發(fā)展脈絡(luò)、定位技術(shù)前沿?zé)狳c(diǎn)和關(guān)鍵技術(shù)的研究趨勢,從而為科研工作者和政府決策部門提供重要的參考依據(jù)。為此,如何針對專利文獻(xiàn)的特征來完成高時(shí)效、高質(zhì)量的專利技術(shù)主題識(shí)別,是當(dāng)下情報(bào)學(xué)領(lǐng)域所需要探索和解決的重要難題。

        目前,專利技術(shù)主題聚類最簡單的方式是通過IPC分類,但由于IPC分類號所代表的專利技術(shù)含義較為寬泛,相同IPC分類號所包含的技術(shù)信息也存在較大差異,為此,使用IPC分類號進(jìn)行專利技術(shù)分類,無法實(shí)現(xiàn)技術(shù)主題的細(xì)化,不利于領(lǐng)域技術(shù)主題的深度探究。此外,專利分類重新修訂后,不再對已分類專利進(jìn)行重新分類,因此將會(huì)產(chǎn)生“過檔文獻(xiàn)”[2],這意味著當(dāng)IPC分類號被修改后,使用舊版分類號的部分專利無法被檢索出來;隨著文本挖掘技術(shù)的廣泛應(yīng)用,借助信息技術(shù)對專利文獻(xiàn)進(jìn)行技術(shù)主題特征識(shí)別成為可能。一方面,以主題詞作為輔助,可以獲得更詳盡的IPC分類之間的關(guān)聯(lián)關(guān)系[3]。另一方面,采用文本挖掘方法,獲得專利文獻(xiàn)摘要或全文中的核心詞[4],能夠挖掘隱含在專利文獻(xiàn)中的大量非結(jié)構(gòu)化信息,實(shí)現(xiàn)專利技術(shù)主題聚類。然而,由于專利文獻(xiàn)為了保持其新穎性以及避開專利雷區(qū)[5],會(huì)使用獨(dú)特或不常用的詞或短語進(jìn)行技術(shù)描述,這也增加了采用文本挖掘方法進(jìn)行專利技術(shù)主題聚類的難度。

        針對以上問題,本文將Sentence-Bert算法引入專利技術(shù)主題識(shí)別研究,通過對專利摘要的句子進(jìn)行相似性判斷,將語義相似的專利文獻(xiàn)進(jìn)行聚類,并提取聚類后的主題,通過文本分析挖掘出領(lǐng)域?qū)@夹g(shù)主題的研究熱點(diǎn)。最后,本文以2015-2019年長三角地區(qū)的人工智能專利數(shù)據(jù)作為研究對象,識(shí)別人工智能領(lǐng)域的研究熱點(diǎn),并將結(jié)果對比LDA主題模型、K-means、doc2vec等方法,得出相應(yīng)的結(jié)論。

        1 相關(guān)研究

        專利技術(shù)主題識(shí)別的分析方式主要包括專家分析法、專利引證法[6-8]、文獻(xiàn)計(jì)量法[9-11]和內(nèi)容分析法等。

        專家分析法主要是通過德爾菲調(diào)查或技術(shù)路線圖法從專利數(shù)據(jù)中中獲取關(guān)鍵技術(shù)信息。由于該方法存在一定的主觀性,往往被用于分析對象無法通過客觀方式收集時(shí)使用[12]。專利引證法和文獻(xiàn)計(jì)量法更多的是通過對專利的外部特征進(jìn)行測度,以達(dá)到把握科技演變情況和探索科技關(guān)聯(lián)規(guī)律的目標(biāo),而專利的內(nèi)容分析法是對專利的內(nèi)部特征進(jìn)行可再觀的、有效的推斷[13],從而達(dá)到評估專利質(zhì)量、預(yù)測專利分類、挖掘研究熱點(diǎn)、展望前沿趨勢等目的。

        近年來,采用文本挖掘技術(shù)對專利技術(shù)主題的探究和分析成為研究熱點(diǎn),通過對專利文本的內(nèi)容進(jìn)行分析,可以有效挖掘?qū)@芯繜狳c(diǎn)、識(shí)別專利技術(shù)主題?,F(xiàn)有研究中,專利技術(shù)主題識(shí)別大致可劃分為四種技術(shù)路線:一是基于專利技術(shù)主題詞和主題詞關(guān)聯(lián)表征,對專利文本的主題進(jìn)行研究,如王莎莎等[14]通過建立技術(shù)之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)在行業(yè)視角下的技術(shù)關(guān)聯(lián)趨勢探索;二是基于共詞分析和共現(xiàn)網(wǎng)絡(luò)對專利文獻(xiàn)進(jìn)行建模,獲取專利文本的主題,如張振剛等[15]以關(guān)鍵詞共現(xiàn)的思想繪制了人工智能領(lǐng)域的專利共現(xiàn)知識(shí)圖譜,從而發(fā)現(xiàn)人工智能的關(guān)鍵技術(shù)和熱點(diǎn)分布;三是采用聚類算法,以關(guān)鍵詞共現(xiàn)矩陣[16-17]或?qū)@鸌PC分類號[18-19]為基礎(chǔ),通過聚類分析來確定領(lǐng)域熱點(diǎn)情況;四是基于主題模型的方式對專利文獻(xiàn)進(jìn)行特征提取、語義提取等操作,從而發(fā)現(xiàn)文獻(xiàn)潛在的知識(shí)結(jié)構(gòu)和主題關(guān)聯(lián)。羅建等[20]提出采用LDA主題模型來對專利全文進(jìn)行聚類,從而實(shí)現(xiàn)對專利文本內(nèi)容更細(xì)粒度的主題表征。

        然而,由于專利文本的特殊性,采用上述方法對專利文獻(xiàn)進(jìn)行技術(shù)主題識(shí)別時(shí),會(huì)存在著以下幾個(gè)問題:一是專利文獻(xiàn)普遍缺少關(guān)鍵詞標(biāo)簽,無法將其視作為類似于科技文獻(xiàn)的普通文本數(shù)據(jù)來進(jìn)行處理[21]。在專利文本挖掘技術(shù)中,主題詞也無法完全囊括專利所包含的全部內(nèi)容[22],為此,采用常規(guī)的文本處理技術(shù)無法達(dá)到良好的技術(shù)主題識(shí)別效果;二是若僅用IPC、CPC等分類號等來對專利進(jìn)行主題識(shí)別,無法精確識(shí)別專利技術(shù)融合交叉程度[23],并且會(huì)導(dǎo)致專利在分類過程中的粒度過粗問題;三是專利文獻(xiàn)存在著語言表達(dá)晦澀難懂、文本詞匯專業(yè)性強(qiáng)且技術(shù)語境較為復(fù)雜[24]等特點(diǎn),而LDA主題模型更傾向于高頻詞之間的共現(xiàn)關(guān)系[25],使得采用主題模型進(jìn)行專利技術(shù)主題識(shí)別時(shí)存在著語義信息有限、主題辨識(shí)度低等問題。

        隨著深度學(xué)習(xí)在自然語言處理研究上取得突破性進(jìn)展,一些學(xué)者們開始嘗試采用深度學(xué)習(xí)算法挖掘?qū)@墨I(xiàn)中深層次的主題信息。徐紅姣等[26]采用word2vec來生成領(lǐng)域的關(guān)鍵詞向量,通過詞向量的計(jì)算來獲取主題的語義相似度,構(gòu)建論文-專利主題關(guān)聯(lián)演化圖譜。曹祺等[27]采用doc2vec模型計(jì)算專利文獻(xiàn)的語義相似度,論證了doc2vec優(yōu)于傳統(tǒng)的相似度檢測模型,為專利技術(shù)主題識(shí)別的挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。

        目前,采用深度學(xué)習(xí)算法對專利文獻(xiàn)進(jìn)行主題識(shí)別的研究仍存在一定的進(jìn)步空間。受doc2vec模型將文檔表示為向量的啟發(fā),本文提出了一種新的專利文獻(xiàn)主題識(shí)別方法,在探索特定領(lǐng)域?qū)@难芯繜狳c(diǎn)時(shí)引入了深度學(xué)習(xí)方法,以專利的摘要作為專利熱點(diǎn)研究的識(shí)別對象,將Sentence-BERT算法運(yùn)用到專利摘要向量化模型當(dāng)中,并將處理結(jié)果與聚類分析、主題詞提取等方法相結(jié)合,共同探究專利熱點(diǎn)主題的語義描述。

        2 基于Sentence-BERT的專利文本分析模型構(gòu)建

        2.1 實(shí)驗(yàn)設(shè)計(jì)

        專利文獻(xiàn)包含有結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息。結(jié)構(gòu)化信息包括專利的申請?zhí)?、發(fā)明人、所屬國、IPC分類號以及申請日和授權(quán)日等信息,非結(jié)構(gòu)化信息則主要包括專利摘要、全文和權(quán)利要求等。相對于專利的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化信息中摘要和全文包含了更多與專利技術(shù)主題有關(guān)的描述,而專利摘要信息不僅包含了專利技術(shù)主題的概括性描述,也涵蓋了專利的主要技術(shù)范疇,在專利技術(shù)主題挖掘中具有重要的意義。為此,本文的實(shí)驗(yàn)選擇專利文獻(xiàn)的摘要作為數(shù)據(jù)源進(jìn)行技術(shù)主題識(shí)別。

        本文設(shè)計(jì)的對專利技術(shù)主題聚類和識(shí)別過程由四個(gè)部分組成:首先,采用Sentence-BERT算法對專利文獻(xiàn)摘要文本進(jìn)行向量化表示,實(shí)現(xiàn)文本基于句向量的篇章語義表示。由于Sentence-BERT 可以能夠獲得在語義上有足夠意義的句向量,實(shí)現(xiàn)專利文獻(xiàn)的相似度計(jì)算,有效解決專利摘要文獻(xiàn)語義特征稀疏的問題;其次,采用UMAP算法對文本向量化矩陣進(jìn)行數(shù)據(jù)降維,UMAP是一種非常有效的可伸縮降維算法,算法在保留了摘要文本更多全局結(jié)構(gòu)信息的同時(shí),將高維概率分布映射到低維空間;隨后本文利用HDBSCAN方式尋找原始數(shù)據(jù)中的高密度簇專利文獻(xiàn)的聚類操作;最后,識(shí)別類簇文本集合中的主題特征,并完成主題呈現(xiàn)。具體步驟如圖1所示:

        圖1 基于Sentence-BERT的專利主題識(shí)別研究框架

        2.2 基于Sentence-BERT的文本向量化

        專利文獻(xiàn)主題識(shí)別的首要任務(wù)是將文本轉(zhuǎn)換為機(jī)器可以識(shí)別的向量。由于專利文獻(xiàn)為保持其新穎性,往往使用獨(dú)特或不常用的詞或短語來表達(dá)常見性語義,致使語言表達(dá)晦澀[5],使得采用簡單的文本分詞,對詞匯進(jìn)行向量化處理,很難有效地獲得專利主題的識(shí)別。目前,解決文本聚類和語義搜索一種常用的方法是將文本中的句子映射到一個(gè)向量空間中,識(shí)別語義相似的句子。Sentence-BERT(簡稱SBERT)是Reimers N.等人在2019年提出的句子向量計(jì)算模型,通過生成句子的Embedding向量,找出語義相似的句子[28]。

        Sentence-BERT是對BERT語言模型的一種改進(jìn),主要是解決Bert模型進(jìn)行文本語義相似度計(jì)算需要巨大的時(shí)間開銷[28]。模型使用Siamese and Triplet Network(孿生網(wǎng)絡(luò)和三重態(tài)網(wǎng)絡(luò)),獲取句子對的向量表示,然后進(jìn)行相似度模型的預(yù)訓(xùn)練,Sentence-BERT模型能夠獲得在語義上有足夠意義的篇章向量。

        Sentence-BERT采用孿生網(wǎng)絡(luò)的結(jié)構(gòu),對于兩個(gè)句子(或短文本)的Sentence Encoder使用同一個(gè)BERT,并在其后加入了一個(gè)池化(pooling)操作來實(shí)現(xiàn)輸出相同大小的句向量。對于句子(或短文本)的相似度任務(wù),直接計(jì)算并輸出余弦相似度。下圖顯示了Sentence-BERT針對句子(文本)相似度計(jì)算的流程。

        圖2中,將句子對輸入到參數(shù)共享的兩個(gè)BERT模型中,然后BERT輸出句子的所有字向量傳入Pooling層進(jìn)行平均池化(既是在句子長度這個(gè)維度上對所有字向量求均值)獲取到每個(gè)句子的句向量表示。Sentence-BERT能夠很好的捕捉句子之間的關(guān)系,使用余弦相似度來衡量兩個(gè)句向量之間的相似性,提升了推理的速度。

        圖2 Sentence-BERT完成文本相似度任務(wù)流程圖

        Sentence-BERT擴(kuò)展了預(yù)訓(xùn)練的BERT模型,模型使用Sentence Transformer,可通過加載預(yù)訓(xùn)練模型,實(shí)現(xiàn)從一組文檔中創(chuàng)建文檔嵌入。目前,預(yù)先訓(xùn)練好的模型應(yīng)用于下游任務(wù)主要有基于特征和基于微調(diào)這兩種方式,該兩種方式均使用單向的語言模型來學(xué)習(xí)一般的語言表征[29]。實(shí)驗(yàn)中,本文采用distiluse-base-multilingual-cased-v1包( 下載地址:https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/。distilbert-base-nli-mean-tokens是以預(yù)訓(xùn)練DistilBERT-base模型在NLI數(shù)據(jù)集上進(jìn)行微調(diào)的SBERT模型,該模型使用均值池化策略計(jì)算句子表示。)作為預(yù)訓(xùn)練模型,該模型在嵌入句子和段落與嵌入搜索查詢方面的質(zhì)量得到了廣泛的評估。為了更好的將預(yù)訓(xùn)練模型應(yīng)用于本文方法,實(shí)驗(yàn)中,對預(yù)訓(xùn)練模型進(jìn)行微調(diào)(fine-tune)操作。具體步驟為:隨機(jī)抽取原始數(shù)據(jù)集中的4000條數(shù)據(jù)采用余弦相似度計(jì)算,并對計(jì)算結(jié)果進(jìn)行人工判定,將結(jié)果作為訓(xùn)練數(shù)據(jù)輸入到初始模型當(dāng)中,設(shè)置迭代次數(shù)為20,完成預(yù)訓(xùn)練模型的微調(diào)。

        2.3 數(shù)據(jù)降維、文本聚類

        Sentence-BERT語言模型首先采用BERT進(jìn)行文本預(yù)訓(xùn)練,由于BERT的中文模型通常采用512個(gè)字符的長度限制,為此預(yù)訓(xùn)練后的文檔將變成N*512(N為文件數(shù))的向量矩陣,隨著N的增加,將形成高維數(shù)據(jù)集。為達(dá)到去除冗余特征,提高文本的聚類效果,需要對向量矩陣進(jìn)行數(shù)據(jù)降維操作。為此,本文提出了使用UMAP (Uniform Manifold Approximation and Projection)進(jìn)行降維的方式。UMAP是L McInnes等人[30]于2018年提出的一種新的降維技術(shù),其理論基礎(chǔ)黎曼幾何和代數(shù)拓?fù)?主要利用局部流形逼近和局部模糊單純形集表示來構(gòu)造高維數(shù)據(jù)的拓?fù)浔硎?即對于高維數(shù)據(jù)來說,給定一些數(shù)據(jù)的低維表示,就可以使用類似的過程來構(gòu)造等價(jià)的低維拓?fù)浔硎?。目?UMAP是文本向量降維效果最好的一個(gè)方法。在數(shù)據(jù)降維的過程中采用UMAP方式,既可以減少計(jì)算復(fù)雜度和內(nèi)存使用量,又可以最大程度地保留原始數(shù)據(jù)的特征[31],相對于T-SNE降維[32],UMAP的優(yōu)點(diǎn)有三:一是其能夠盡可能多的保留全局結(jié)構(gòu),二是其耗時(shí)更短,三是其對嵌入維數(shù)沒有限制,故可以擴(kuò)展到更大的維度的數(shù)據(jù)集。

        為了能更好的抽取專利文獻(xiàn)中的主題信息,本文首先對獲得的文本向量矩陣進(jìn)行聚類。在聚類時(shí)本文選擇了由 Campello、Moulavi 和 Sander 共同開發(fā)的HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)聚類算法[33],和傳統(tǒng)DBSCAN最大的不同之處在于,HDBSCAN可以處理不同密度的集群聚類問題,并且在參數(shù)選擇方面表現(xiàn)出更加穩(wěn)健的優(yōu)點(diǎn)。HDBSCAN算法引入層次聚類思想,對最小生成樹剪枝的最小子樹做了限制,控制生成的類簇不會(huì)過小。此外,算法對參數(shù)敏感度較低,不需要自行設(shè)置閾值,只需定義最小簇的數(shù)量。

        2.4 抽取主題詞

        對聚類類簇的主題詞抽取,本文采用TF-IDF算法。TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)是一種能根據(jù)詞語在語料庫中出現(xiàn)的頻次來判斷其重要性程度的統(tǒng)計(jì)方法。TF表示一個(gè)詞在文檔中出現(xiàn)的頻率,頻率越高,則代表該詞出現(xiàn)的次數(shù)越多;IDF表示一個(gè)詞在所有文檔中的重要性程度,包含該詞的文檔越少,則該詞更能體現(xiàn)文檔的主題。TF和IDF的具體計(jì)算公式如下

        (1)

        公式(1)反映了關(guān)鍵詞w在文檔Di中出現(xiàn)的頻率;Di為第i個(gè)文檔中所有詞的總數(shù)

        (2)

        公式(2),表示詞w在文檔集合中的普遍程度,N為文檔總數(shù),I表示關(guān)鍵詞w是否出現(xiàn)在Di文檔中,一個(gè)詞w越普遍,其IDF值越低。

        TF-IDF的公式為TF*IDF。TF-IDF算法認(rèn)為,如果某個(gè)詞在一篇文章中出現(xiàn)的頻次高,且在其他文章中很少出現(xiàn),那么這個(gè)詞就具有很好的類別區(qū)分能力。因此,采用TF-IDF可以用以評估一個(gè)詞對于一篇文章的重要性。

        運(yùn)用這個(gè)思想,可以將一個(gè)主題簇群中的所有文檔視為一個(gè)單一文檔C來應(yīng)用TF-IDF方法,可以得到一個(gè)主題簇群中的詞的重要性得分C-TF-IDF。在一個(gè)聚類簇群中,詞匯越重要越能代表該主題。用此方法來即可挖掘出各個(gè)簇群中的主題詞,從而對不同主題進(jìn)行描述和刻畫。

        3 實(shí)驗(yàn)過程及結(jié)果分析

        本文運(yùn)用上文提出的研究思路,以人工智能領(lǐng)域?qū)@麛?shù)據(jù)進(jìn)行實(shí)驗(yàn)。具體的研究流程為:

        a.獲取專利文獻(xiàn)的摘要數(shù)據(jù),采用基于BERT的Sentence Transformer模型對專利摘要數(shù)據(jù)進(jìn)行向量化表示,在預(yù)訓(xùn)練包distiluse-base-multilingual-cased-v1的基礎(chǔ)上進(jìn)行模型微調(diào)操作,使用二次訓(xùn)練模型完成文檔集的嵌入;

        b.采用UMAP算法對文檔集嵌入后生成的向量化矩陣數(shù)據(jù)進(jìn)行流式降維,將高維數(shù)據(jù)數(shù)據(jù)映射到低維空間;

        c.采用HDBSCAN尋找低維空間數(shù)據(jù)中的高密簇,形成具有主題意義的類簇,并可視化聚類結(jié)果。

        d.采用TF-IDF的方式對聚類類簇中的核心關(guān)鍵詞進(jìn)行提取,通過人工主題歸并方式識(shí)別人工智能領(lǐng)域?qū)@闹黝}特征。

        e.以上述實(shí)驗(yàn)對比采用共詞分析、LDA主題模型、K-means、doc2vec等方式來對專利文檔進(jìn)行的主題挖掘,驗(yàn)證本文提出的方法的實(shí)用性。

        3.1 數(shù)據(jù)來源及數(shù)據(jù)處理

        本文選取了incoPat科技創(chuàng)新情報(bào)檢索平臺(tái)上長三角地區(qū)有關(guān)人工智能領(lǐng)域的專利數(shù)據(jù),檢索時(shí)間為2020年11月10日,檢索時(shí)間范圍為2015—2019年,檢索主題詞為“人工智能”or“模式識(shí)別”or“自然語言處理”or“ 語音識(shí)別”or“圖像識(shí)別”or“視頻識(shí)別”or“虹膜識(shí)別”or“智能處理器”or“智能機(jī)器人”or“專家系統(tǒng)”or“智能搜索”or“智能駕駛”or“機(jī)器學(xué)習(xí)”or“深度學(xué)習(xí)”or“神經(jīng)網(wǎng)絡(luò)”or“計(jì)算機(jī)視覺”or“認(rèn)知計(jì)算”,專利申請地址包含江浙滬皖3省1市,同時(shí)過濾掉檢索報(bào)告、譯文、和短期專利。檢索后的數(shù)據(jù)集見圖3。

        圖3 獲取的專利數(shù)據(jù)(部分)

        對于獲取的數(shù)據(jù),為了便于分析,本文首先按照專利申請?zhí)栠M(jìn)行合并,優(yōu)先保留授權(quán)專利記錄,隨后,選取發(fā)明專利作為研究對象,最后,對專利數(shù)據(jù)進(jìn)行去重操作。經(jīng)過數(shù)據(jù)篩選,本文最終得到22370條專利數(shù)據(jù)。

        3.2 文本向量化

        BERT的中文模型通常由512個(gè)字符的長度限制,為此,實(shí)驗(yàn)前,本文對摘要數(shù)據(jù)的長度進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如下:

        表1 摘要字?jǐn)?shù)統(tǒng)計(jì)

        從結(jié)果來看,數(shù)據(jù)集中每篇專利摘要的字符均低于512,因此不需要做切割或補(bǔ)齊操作,考慮到文本的平均長度為259,采用Sentence-BERT用對文檔數(shù)據(jù)進(jìn)行句子向量化計(jì)算。經(jīng)過上述預(yù)處理,最終形成實(shí)驗(yàn)基礎(chǔ)數(shù)據(jù)。

        實(shí)驗(yàn)中,本文載入經(jīng)過fine-tune操作的多語言模型distiluse-base-multilingual-cased-v1包作為文檔數(shù)據(jù)的預(yù)訓(xùn)練模型,采用 Sentence-BERT對22370條專利摘要數(shù)據(jù)進(jìn)行文檔向量化表示,最終得到22370行*512列的向量化矩陣。

        3.3 數(shù)據(jù)降維并聚類

        在UMAP對文本向量進(jìn)行非線性降維的過程中,考慮到降低計(jì)算復(fù)雜度及內(nèi)存使用率,主要的參數(shù)設(shè)定為:n_neighbors=15,n_components=2,并采用余弦相似度的方式來構(gòu)建向量相似度矩陣。

        為了便于向量可視化,本文采用降維后的二維向量來描述每一篇人工智能專利摘要,經(jīng)過HDBSCAN來對文檔進(jìn)行聚類。在聚類結(jié)果上發(fā)現(xiàn)的高密度簇,可以認(rèn)為是人工智能領(lǐng)域的研究熱點(diǎn)。HDBSCAN的重要參數(shù)主要有最小生成簇類大小min_cluster_size。當(dāng)min_cluster_size數(shù)值增大時(shí),最小簇中所聚類的文檔數(shù)越多,挖掘得到的主題數(shù)量越少,主題分類越不明顯。當(dāng)min_cluster_size數(shù)值越小,聚類所需文檔的數(shù)目越少,則更可以挖掘出更精細(xì)化的主題。本文經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)min_cluster_size=100時(shí),簇與簇之間區(qū)別較為明顯,且主題精細(xì)化程度較高,為此將100作為最小生成簇的值。文檔向量經(jīng)過聚類計(jì)算后,共形成30個(gè)高密度簇。

        3.4 人工智能領(lǐng)域主題的構(gòu)建及主題詞的提取

        TF-IDF方法對文本集進(jìn)行核心關(guān)鍵詞提取過程中,較依賴與數(shù)據(jù)的預(yù)處理結(jié)果,為此,文本構(gòu)建人工智能專利的停用詞表,對專利摘要數(shù)據(jù)進(jìn)行分詞、去停用詞等操作,對于專利文獻(xiàn)中出現(xiàn)的專有名詞,本文借助了人工識(shí)別和并參考了《漢語主題詞表》( 《漢語主題詞表》,網(wǎng)址:https://ct.istic.ac.cn/site/organize/word),通過實(shí)驗(yàn)結(jié)果的不斷修正,最終構(gòu)建了領(lǐng)域詞典,以便于高效的完成分詞,并為后續(xù)主題詞識(shí)別提供高質(zhì)量的語料庫。

        對于30個(gè)聚類結(jié)果,本文將每一個(gè)簇里的所有文檔數(shù)據(jù)進(jìn)行匯總,視為一個(gè)單一文檔來應(yīng)用TF-IDF,得到每一個(gè)簇內(nèi)(即每一個(gè)主題內(nèi))的重要性詞匯。根據(jù)對重要性詞匯進(jìn)行排序,可以發(fā)現(xiàn),出現(xiàn)次數(shù)越多的詞匯,越能代表該主題,其為主題詞。將該主題內(nèi)排名靠前的重要詞匯進(jìn)行語義分析,可以挖掘出該主題領(lǐng)域下的研究內(nèi)容。將所有研究內(nèi)容進(jìn)行匯總,即可得到長三角地區(qū)人工智能領(lǐng)域的研究熱點(diǎn)。

        表2展示了30個(gè)類簇的技術(shù)主題識(shí)別結(jié)果,每個(gè)類簇采用5個(gè)主題詞進(jìn)行描述,根據(jù)這些主題詞,通過人工的方式對主題進(jìn)行命名,共可分為30個(gè)技術(shù)主題小類。通過對這30個(gè)小類進(jìn)行觀察和分析,可將其匯總為9個(gè)技術(shù)主題大類。

        在表2中,編號0,2,4,5,11,14,18,21可共同命名為智能監(jiān)控,每一個(gè)子主題可分別命名為電梯監(jiān)測、燈具控制、雷達(dá)監(jiān)測、農(nóng)業(yè)監(jiān)測、火災(zāi)警報(bào)、水下作業(yè)監(jiān)測、硬件設(shè)施、電力監(jiān)測;編號7,9,13,16,17可共同命名為智能醫(yī)療,每一個(gè)子主題可分別命名為智能影像、醫(yī)療成像、心電圖診斷、癌細(xì)胞分析、病例共享;編號3,8,10可共同命名為智能駕駛,每一個(gè)子主題可分別命名為智能汽車、電動(dòng)汽車、無人機(jī);編號19,20可共同命名為智能機(jī)械,其中包含了電機(jī)和硬件設(shè)施兩個(gè)子主題;編號22,26,29可共同命名為卷積神經(jīng)網(wǎng)絡(luò),其中包含了神經(jīng)網(wǎng)絡(luò)、卷積權(quán)重和網(wǎng)絡(luò)分割三個(gè)子主題;編號6,23可共同命名主題為數(shù)據(jù)平臺(tái),其中包含云端服務(wù)和數(shù)據(jù)庫兩個(gè)子主題;編號1,15可共同命名主題為人臉識(shí)別,其中包含人臉檢測和人臉特征提取兩個(gè)子主題;編號12,25,27,28可共同命名為圖像識(shí)別主題,其中又可命名四個(gè)子主題為語音識(shí)別、視頻識(shí)別、硬件設(shè)備和圖像校正。編號24可命名為自然語言處理。

        從表2的結(jié)果可以看到,基于Sentence-BERT模型來對專利摘要數(shù)據(jù)進(jìn)行技術(shù)主題聚類,可以挖掘出更細(xì)粒度、更高質(zhì)量、更深層次的主題,有助于分析探討技術(shù)主題中的細(xì)分特征,顯著提升技術(shù)主題的多樣性和可解釋性。

        為進(jìn)一步分析獲得的9個(gè)技術(shù)主題之間的相似性,本文采用JS散度算法[34]對獲得的9個(gè)技術(shù)主題間概率分布的相似度進(jìn)行計(jì)算,并采用gephi來畫圖。其中,節(jié)點(diǎn)的大小代表著專利數(shù)量的多少,節(jié)點(diǎn)越大表示專利數(shù)量越多;邊顏色的深淺表示了主題之間的相關(guān)程度,顏色越深、線條代表著兩個(gè)主題相似度越高,相關(guān)性越強(qiáng)。具體如圖4所示。

        圖4 專利技術(shù)主題相似度關(guān)系圖

        從圖中可以看出,音圖識(shí)別、智能駕駛、智能監(jiān)控、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)在人工智能領(lǐng)域的專利數(shù)量較大,而人臉識(shí)別、自然語言處理等技術(shù)的專利申請量較少。此外,智能監(jiān)控與智能醫(yī)療的技術(shù)主題相似度比較高,而卷積神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)平臺(tái)、音圖識(shí)別與智能駕駛、智能機(jī)械與智能駕駛、以及智能監(jiān)控與數(shù)據(jù)平臺(tái)等技術(shù)之間均存在一定的技術(shù)主題相似度。值得注意的是,人臉識(shí)別技術(shù)從連線的顏色和粗細(xì)上可以發(fā)現(xiàn),與其他8個(gè)技術(shù)主題的JS散度分布的相似度比較低,說明該技術(shù)的相對“獨(dú)立性”。

        針對主題相似度判斷結(jié)果,本文對專利摘要進(jìn)行分析。對于智能監(jiān)控、智能醫(yī)療和人臉識(shí)別三個(gè)技術(shù)主題,通過人工提取、整理和分析三類主題的技術(shù)分布,可以發(fā)現(xiàn),這三類主題均使用了深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、圖像識(shí)別等人工智能技術(shù),在使用的技術(shù)上存在一定的相似性;同時(shí),智能監(jiān)控和智能醫(yī)療主題的專利,除了使用上述技術(shù)之外,大多專利均采用了物聯(lián)網(wǎng)、人機(jī)交互、模式識(shí)別、傳感器檢測等技術(shù),使得這兩個(gè)技術(shù)主題的相似度較高;而人臉識(shí)別主題涉及到虹膜識(shí)別、眼球追蹤、生物指紋等技術(shù),這使得該專利技術(shù)主題與其他主題差別較大,這也是人臉識(shí)別主題與其他主題的相似程度較低的重要原因。

        3.5 對比分析

        為驗(yàn)證該方法在文本向量化上的有效性,本文采用LDA主題模型、k-means聚類、doc2vec三種方法的實(shí)驗(yàn)結(jié)果作為對照組來進(jìn)行比較。

        采用LDA主題模型來推測專利技術(shù)主題分布,根據(jù)困惑度指標(biāo)來確定最佳主題個(gè)數(shù)為74個(gè);采用K-means來對專利摘要文檔進(jìn)行聚類,通過手肘法確定最佳聚類數(shù)為8個(gè);采用doc2vec[35]對每篇專利摘要進(jìn)行向量化表示,在數(shù)據(jù)降維、文本聚類過程中采用的參數(shù)均與Sentence-BERT實(shí)驗(yàn)一致,最終一共得到了7個(gè)主題。

        本文采用主題一致性指標(biāo)來衡量不同算法獲得的主題效果。主題一致性通過衡量主題之間高頻詞匯的語義相似程度來為單個(gè)主題打分,表示了主題內(nèi)部有意義聯(lián)系的程度,其數(shù)值越大表明模型越佳[36]。本文分別選擇“u_mass”和“c_v”兩種方式計(jì)算主題的一致性,通過實(shí)驗(yàn)對比,計(jì)算Sentence-BERT、 LDA、k-means和doc2vec四種方式的主題一致性,具體結(jié)果詳見表3。

        表3 主題一致性和主題數(shù)量的對比實(shí)驗(yàn)

        從表3可見,采用Sentence-BERT模型對文檔進(jìn)行向量化,得到的u_mass和c_v值均最高,說明本文方法的主題一致性效果最好。從實(shí)驗(yàn)數(shù)據(jù)對比來看,LDA模型獲得的主題一致性是幾種方法中最低的,這也說明專利文獻(xiàn)存在技術(shù)術(shù)語多樣化的特點(diǎn),使得依據(jù)詞匯之間的共現(xiàn)關(guān)系識(shí)別專利技術(shù)主題會(huì)造成結(jié)果的不穩(wěn)定。從主題聚類的數(shù)量來看,本文獲的30個(gè)類簇,可以較好的細(xì)分專利文獻(xiàn)集的主題信息,提升了挖掘的效果。通過比較四種方式的主題建模結(jié)果,本文認(rèn)為,采用Sentence-BERT模型來對專利摘要進(jìn)行向量化表示,能夠使得文檔在向量空間中得到更好的表示,從而愈發(fā)豐富文檔的語義描述,最終在主題的精細(xì)化挖掘中起到較好的效果。

        4 結(jié)束語

        采用文本挖掘的方法對專利技術(shù)主題進(jìn)行聚類,可以有效挖掘?qū)@墓残约夹g(shù)。本文采用深度學(xué)習(xí)的思想,結(jié)合向量降維、相似度計(jì)算、聚類分析、主題詞提取等方法,對2015-2019年的長三角地區(qū)人工智能領(lǐng)域進(jìn)行分析。研究表明,采用Sentence-BERT模型能夠在文本向量化過程中更多地考慮上下文之間的語義聯(lián)系,使得文檔更好地在向量空間中被表示,從而可以挖掘出更細(xì)粒度、更精細(xì)化、更高質(zhì)量、更深層次的主題,有助于分析探討主題中的細(xì)分特征,顯著提升主題的多樣性和可解釋性。

        本文研究方法的采用Sentence-BERT對句子向量化的方法,解決了專利文獻(xiàn)為突出新穎性,而常使用獨(dú)特或不常用的詞或短語所造成的詞匯向量語義特征稀疏問題。但是,基于Sentence-BERT模型對專利文獻(xiàn)的主題識(shí)別分析仍有一些需要進(jìn)一步提高的地方,今后,我們將繼續(xù)探索在聚類處理時(shí)如何平衡粗細(xì)粒度之間的關(guān)系,以及如何合理的使用fine-tune(微調(diào))策略,完善預(yù)訓(xùn)練語料庫,提高文本向量化處理準(zhǔn)確度,以及如何利用遷移學(xué)習(xí)實(shí)現(xiàn)跨領(lǐng)域?qū)@墨I(xiàn)的主題識(shí)別問題,是未來該方法進(jìn)一步深入探索的方向。

        猜你喜歡
        專利技術(shù)文檔專利
        專利
        全新充電專利技術(shù)實(shí)現(xiàn)車隊(duì)充電
        有人一聲不吭向你扔了個(gè)文檔
        鎂冶煉專利技術(shù)研究
        發(fā)明與專利
        傳感器世界(2019年4期)2019-06-26 09:58:44
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        重復(fù)數(shù)據(jù)刪除專利技術(shù)綜述
        河南科技(2014年16期)2014-02-27 14:13:05
        專利技術(shù)
        焊管(2013年11期)2013-04-09 07:16:50
        專利

        日日摸天天摸人人看| 色婷婷在线一区二区三区| 国产一区二区精品亚洲| 国产日产在线视频一区| 巨爆中文字幕巨爆区爆乳| 一本无码av中文出轨人妻| 无套内谢的新婚少妇国语播放| 国产曰批免费视频播放免费s| 日韩女人毛片在线播放| 久久精品亚洲成在人线av | 男人天堂网2017| 国产激情内射在线影院| 国语对白做受xxxxx在线中国 | 日韩av在线手机免费观看| 91精品国产在热久久| 97精品超碰一区二区三区| 女人色毛片女人色毛片18| 日韩欧美中文字幕公布| 日本a一区二区三区在线| 亚洲天堂成人av影院| 一区二区三区在线 | 欧| 国产精品原创巨作AV女教师| 国产精品18久久久久久不卡中国| 国产欧美日本亚洲精品一5区| 亚洲不卡av一区二区三区四区 | 国产精品久久久久久无码| 999国产精品亚洲77777| 国产精品亚洲一区二区三区正片 | 狠狠摸狠狠澡| 国产精品狼人久久久久影院| 国产精品乱码在线观看| 久久天堂av色综合| 亚洲国产91高清在线| 久久午夜av一区二区三区| 亚洲成a∨人片在无码2023| 精品国产一级毛片大全| 成av人片一区二区三区久久| 中国一级特黄真人片久久| 人妻献身系列第54部| 日韩精人妻无码一区二区三区| 精品三级国产一区二区三 |