亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型構(gòu)建研究*

        2021-10-12 12:27:54余軍合鄧慧君施培妤胡國(guó)建
        機(jī)械制造 2021年9期
        關(guān)鍵詞:語(yǔ)義文本模型

        □ 沙 鶴 □ 余軍合 □ 鄧慧君 □ 施培妤 □ 胡國(guó)建

        寧波大學(xué) 機(jī)械工程與力學(xué)學(xué)院 浙江寧波 315211

        1 研究背景

        當(dāng)前,專利數(shù)據(jù)量龐大,簡(jiǎn)單的關(guān)鍵詞檢索已經(jīng)無(wú)法滿足設(shè)計(jì)人員在短時(shí)間內(nèi)匹配關(guān)聯(lián)度較高的專利的需求。專利智能檢索能夠極大地縮短設(shè)計(jì)人員的查閱時(shí)間,提高工作效率。

        隨著大數(shù)據(jù)技術(shù)與信息科學(xué)處理技術(shù)的出現(xiàn)和發(fā)展,如何將數(shù)據(jù)處理技術(shù)與方法應(yīng)用于專利語(yǔ)義網(wǎng)絡(luò),引起了學(xué)者的廣泛關(guān)注,同時(shí)為專利智能檢索提供了技術(shù)支持。

        基于專利語(yǔ)義模型進(jìn)行專利檢索時(shí),可以通過(guò)輸入一個(gè)詞、一句話或一段文字進(jìn)行查詢,而不必考慮文本中是否包含有關(guān)鍵詞。構(gòu)建高準(zhǔn)確性的語(yǔ)義模型,是提高專利檢索準(zhǔn)確度的重要方式。語(yǔ)義模型的發(fā)展由基于詞袋模型向基于向量模型跨越。楊宏章等[1]基于專利文本結(jié)構(gòu)構(gòu)建專利語(yǔ)義模型,提高了檢索效率。Zhang Longhui等[2]提出一種基于領(lǐng)域內(nèi)高平均值頻率術(shù)語(yǔ)的專利語(yǔ)義模型,用于目標(biāo)主題專利的查詢。姜春濤[3]提出基于關(guān)鍵詞和依存關(guān)系樹(shù)的圖模型,為專利智能分析提供語(yǔ)義支撐。王秀紅等[4]針對(duì)領(lǐng)域?qū)@R(shí)庫(kù)構(gòu)建,提出由專利文本向量表示專利語(yǔ)義信息的方法。曹洋[5]基于文本排序算法提取文本中語(yǔ)義信息,構(gòu)建拓?fù)鋱D,提升了文本主題的語(yǔ)義準(zhǔn)確性。劉斌等[6]采用神經(jīng)網(wǎng)絡(luò)提取專利和論文的特征,實(shí)現(xiàn)論文與專利之間的聯(lián)系,并提出基于深度學(xué)習(xí)的專利語(yǔ)義模型。Wu Hengqin等[7]針對(duì)技術(shù)專利中領(lǐng)域?qū)I(yè)技術(shù)難以識(shí)別的問(wèn)題,提出應(yīng)用深度學(xué)習(xí)的方法來(lái)自動(dòng)識(shí)別目標(biāo)專利。吳素雪[8]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型,提高了檢索準(zhǔn)確度。隨著機(jī)器學(xué)習(xí)算法的發(fā)展,在向量模型下構(gòu)建專利語(yǔ)義已成為研究的熱點(diǎn),不僅僅局限于關(guān)鍵詞的檢索是這一方法的重要應(yīng)用特點(diǎn)。

        深度學(xué)習(xí)在自然語(yǔ)言處理方面,Srivastava等[9]采用受限玻爾茲曼機(jī)對(duì)文檔進(jìn)行主題建模,Hill等[10]使用多層感知機(jī)卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等對(duì)文檔進(jìn)行建模。前者只考慮詞語(yǔ)間的主題關(guān)系,不考慮文檔內(nèi)的語(yǔ)序問(wèn)題,后者則主要以滑動(dòng)窗口對(duì)文本建模。在文本分類中,郭利敏等[11]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)小批量文字生成批量文本,將古籍漢字的識(shí)別問(wèn)題轉(zhuǎn)換為卷積神經(jīng)網(wǎng)絡(luò)的分類問(wèn)題。最近,圖網(wǎng)絡(luò)模型的新發(fā)展引起了研究人員的廣泛關(guān)注,越來(lái)越多的圖網(wǎng)絡(luò)模型被人們所熟知[12]。Yao Liang等[13]采用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)進(jìn)行文本分類,提出基于文本的圖卷積神經(jīng)網(wǎng)絡(luò)模型。Liu Xi’en等[14]對(duì)圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深一步研究,構(gòu)建張量圖卷積神經(jīng)網(wǎng)絡(luò),用于整合各種圖形的異構(gòu)信息。

        圖網(wǎng)絡(luò)可以依靠節(jié)點(diǎn)之間的信息傳遞來(lái)捕捉圖中的依賴關(guān)系,圖卷積神經(jīng)網(wǎng)絡(luò)依托于可以建立不規(guī)則數(shù)據(jù)結(jié)構(gòu)的圖網(wǎng)絡(luò),這給筆者基于圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建專利語(yǔ)義模型提供了理論基礎(chǔ)。

        2 專利語(yǔ)義模型構(gòu)建方法

        構(gòu)建基于圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型,主要思路是通過(guò)確定網(wǎng)絡(luò)節(jié)點(diǎn)和節(jié)點(diǎn)間的連邊關(guān)系,構(gòu)建合適的網(wǎng)絡(luò)模型,能夠基于節(jié)點(diǎn)特性和整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)性質(zhì),結(jié)合神經(jīng)網(wǎng)絡(luò)算法來(lái)提取專利語(yǔ)義信息。

        在基于圖卷積神經(jīng)網(wǎng)絡(luò)的專利分類模型部分,筆者通過(guò)構(gòu)建專利文本中專利與摘要、摘要中字與字的連邊關(guān)系進(jìn)行圖網(wǎng)絡(luò)的構(gòu)建。

        為了探究字與字構(gòu)建模型的語(yǔ)義和詞與詞構(gòu)建模型的語(yǔ)義的差異性,基于詞頻-逆向文檔頻率(IF-IDF)算法對(duì)摘要進(jìn)行主題詞提取,通過(guò)摘要主題詞與關(guān)鍵詞間的節(jié)點(diǎn)關(guān)系對(duì)摘要中字與字構(gòu)圖方式進(jìn)行了研究分析。

        在基于余弦相似度的圖卷積神經(jīng)網(wǎng)絡(luò)模型分析部分,筆者對(duì)兩種不同構(gòu)圖方式構(gòu)建的圖卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類,并基于分類效果圖分析模型的可靠性。結(jié)合相似專利與基準(zhǔn)專利,在基于兩種構(gòu)圖的圖卷積神經(jīng)網(wǎng)絡(luò)模型下進(jìn)行余弦相似度計(jì)算,通過(guò)相似度對(duì)比分析兩個(gè)模型的效果。

        筆者基于設(shè)計(jì)方法學(xué)中的三種設(shè)計(jì)人員常規(guī)檢索專利方式,以功能、功能-原理、功能-原理-結(jié)構(gòu)三種檢索式為研究對(duì)象,將針對(duì)三種檢索式的設(shè)計(jì)需求作為檢索語(yǔ)句嵌入圖網(wǎng)絡(luò),進(jìn)行相似專利的匹配?;诜祷赜脩魴z索的結(jié)果,采用專利檢索評(píng)估方法來(lái)評(píng)估不同檢索式的優(yōu)劣。

        基于圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型構(gòu)建方法具體流程如圖1所示。

        3 圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建方法

        3.1 圖卷積神經(jīng)網(wǎng)絡(luò)

        (1)

        通過(guò)疊加多個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)層來(lái)合并高階鄰域信息:

        (2)

        式中:H(k)為第k層輸入的特征矩陣;H(k+1)為第k+1層輸入的特征矩陣;Wk為經(jīng)過(guò)k層訓(xùn)練得出的權(quán)重參數(shù)。

        兩層圖卷積神經(jīng)網(wǎng)絡(luò)可以允許在兩個(gè)最大距離的節(jié)點(diǎn)間進(jìn)行消息傳遞,因此,盡管圖中沒(méi)有直接構(gòu)建的專利與摘要的邊,但是兩層圖卷積神經(jīng)網(wǎng)絡(luò)允許在文檔之間交換信息。筆者在初步試驗(yàn)鄰接矩陣時(shí)發(fā)現(xiàn)兩層圖卷積神經(jīng)網(wǎng)絡(luò)的性能優(yōu)于一層圖卷積神經(jīng)網(wǎng)絡(luò),但更多的層數(shù)并不能提高性能。

        3.2 異構(gòu)網(wǎng)絡(luò)圖

        筆者在專利與摘要主題詞的連邊上應(yīng)用詞頻-逆向文檔頻率權(quán)重。在構(gòu)建摘要主題詞與摘要主題詞間的連邊時(shí),為了應(yīng)用全局詞共現(xiàn)信息,在專利庫(kù)中所有摘要主題詞上使用一個(gè)固定大小的滑動(dòng)窗口來(lái)收集共現(xiàn)信息。通過(guò)應(yīng)用點(diǎn)互信息算法來(lái)計(jì)算兩個(gè)摘要主題詞節(jié)點(diǎn)之間的權(quán)重。點(diǎn)互信息算法是一種常用的詞關(guān)聯(lián)度量方法,應(yīng)用點(diǎn)互信息算法相比應(yīng)用單詞共現(xiàn)計(jì)數(shù),可以獲得更好的結(jié)果。

        ▲圖1 基于圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型構(gòu)建方法流程

        鄰接矩陣Acv為:

        (3)

        式中:S(e,j)為兩個(gè)主題詞間的點(diǎn)互信息值數(shù)據(jù)集;M(i,j)為專利與摘要主題詞的詞頻-逆向文檔頻率權(quán)重?cái)?shù)據(jù)集。

        S(e,j)為:

        (4)

        p(e)=W(e)/W

        (5)

        p(j)=W(j)/W

        (6)

        p(e,j)=W(e,j)/W

        (7)

        式中:W為滑動(dòng)窗口總數(shù);W(e)為在一個(gè)專利庫(kù)中包含鄰接矩陣中行摘要主題詞的滑動(dòng)窗口數(shù);W(j)為在一個(gè)專利庫(kù)中包含鄰接矩陣中列摘要主題詞的滑動(dòng)窗口數(shù);W(e,j)為在一個(gè)專利庫(kù)中同時(shí)包含行摘要主題詞和列摘要主題詞的滑動(dòng)窗口數(shù);p(e)為行摘要主題詞在整個(gè)訓(xùn)練專利文本中出現(xiàn)的概率;p(j)為列摘要主題詞在整個(gè)訓(xùn)練專利文本中出現(xiàn)的概率;p(e,j)為行和列摘要主題詞在整個(gè)訓(xùn)練專利文本中同時(shí)出現(xiàn)的概率。

        點(diǎn)互信息值為正,表示主題詞與主題詞間的相關(guān)性較大。點(diǎn)互信息為負(fù),表示主題詞與主題詞間的相關(guān)性較小或不存在。所以,僅給點(diǎn)互信息值為正的兩個(gè)摘要主題詞節(jié)點(diǎn)連邊。

        逆向文檔頻率關(guān)系式為:

        Q(tl)=log(N/b+0.01)

        (8)

        式中:Q(tl)為摘要主題詞tl的逆向文檔頻率數(shù)據(jù)集;N為專利庫(kù)中專利的總數(shù);b為包含摘要主題詞tl的專利數(shù)。

        詞頻-逆向文檔頻率權(quán)重M為:

        M=PQ(tl)

        (9)

        式中:P為鄰接矩陣行中摘要主題詞tl在鄰接矩陣列所有專利中出現(xiàn)的次數(shù)。

        筆者基于字與詞的語(yǔ)義差異性,構(gòu)建基于專利-單字符和專利-主題詞兩種異構(gòu)圖的圖卷積神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行語(yǔ)義模型的研究。構(gòu)圖中,需要分別對(duì)數(shù)據(jù)進(jìn)行字符級(jí)別的分詞與主題詞提取處理。單字符提取主要通過(guò)單字劃分實(shí)現(xiàn)。主題詞提取時(shí),先對(duì)專利摘要進(jìn)行數(shù)據(jù)預(yù)處理,再應(yīng)用詞頻-逆向文檔頻率算法選出專利主題詞。兩種構(gòu)圖方式舉例見(jiàn)表1。

        表1 構(gòu)圖方式舉例

        兩種構(gòu)圖方式的圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。圖2中,數(shù)據(jù)集的全部文檔可以表示為D= {d1,d2,d3,…,dn},n為數(shù)據(jù)集中專利文檔總數(shù)。數(shù)據(jù)集中基于專利-主題詞構(gòu)建異構(gòu)文本圖時(shí),全部主題詞可以表示為W={w1,w2,w3,…,wm},m為數(shù)據(jù)集中專利摘要文本主題詞的總數(shù)。數(shù)據(jù)集中基于專利-單字符構(gòu)建異構(gòu)文本圖時(shí),全部單字符可以表示為C={c1,c2,c3,…,cx},x為數(shù)據(jù)集中專利摘要文本字符的總數(shù)。

        ▲圖2 兩種構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        4 試驗(yàn)數(shù)據(jù)集

        筆者基于incoPat專利數(shù)據(jù)庫(kù)檢索所需專利數(shù)據(jù),采用自行車基本設(shè)計(jì)結(jié)構(gòu)25個(gè)不同配件的關(guān)鍵詞,分別搭配自行車主題用于檢索專利數(shù)據(jù),共計(jì)檢索專利32 684條。由于外觀設(shè)計(jì)型專利技術(shù)特征基于設(shè)計(jì)圖來(lái)展示,與摘要關(guān)聯(lián)較小,因此筆者選取實(shí)用新型和發(fā)明專利作為分析數(shù)據(jù),篩選出專利共計(jì)27 406條。

        試驗(yàn)數(shù)據(jù)中,自行車的國(guó)際專利分類號(hào)繁多,共計(jì)484種。將國(guó)際專利分類號(hào)作為訓(xùn)練標(biāo)簽類別分類特征不明顯,因此筆者的試驗(yàn)基于模塊化設(shè)計(jì)思想,結(jié)合國(guó)際專利分類號(hào)查詢,將國(guó)際專利分類號(hào)映射至設(shè)計(jì)模塊。自行車按模塊設(shè)計(jì)可劃分為車架系統(tǒng)設(shè)計(jì)模塊、車輪系統(tǒng)設(shè)計(jì)模塊、車座系統(tǒng)設(shè)計(jì)模塊、導(dǎo)向系統(tǒng)設(shè)計(jì)模塊、傳動(dòng)系統(tǒng)設(shè)計(jì)模塊、制動(dòng)系統(tǒng)設(shè)計(jì)模塊。基于這六個(gè)模塊,結(jié)合國(guó)際專利分類表,進(jìn)行專利類別標(biāo)簽劃分。專利類別標(biāo)簽劃分見(jiàn)表2。

        表2 專利類別標(biāo)簽劃分

        5 試驗(yàn)結(jié)果分析

        5.1 分類效果

        筆者基于Python編程軟件和張量框架構(gòu)建圖卷積神經(jīng)網(wǎng)絡(luò)模型,在圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,卷積層第一層和第二層的嵌入維度設(shè)置為200。隨機(jī)選擇訓(xùn)練集的20%作為驗(yàn)證集,為防止過(guò)擬合,設(shè)置拋出隱藏節(jié)點(diǎn)率為 0.5,學(xué)習(xí)率為0.01。設(shè)置200個(gè)訓(xùn)練周期,若連續(xù)10個(gè)周期的驗(yàn)證損失率沒(méi)有降低,則停止訓(xùn)練。模型采用準(zhǔn)確率、召回率、綜合評(píng)價(jià)分?jǐn)?shù),進(jìn)行性能評(píng)價(jià)。

        將處理后的數(shù)據(jù)輸入所構(gòu)建的圖卷積神經(jīng)網(wǎng)絡(luò)模型,為體現(xiàn)方法的適用性,選擇專利-單字符構(gòu)圖方式和專利-主題詞構(gòu)圖方式進(jìn)行對(duì)比試驗(yàn)。采用專利-單字符構(gòu)圖方式,輸入節(jié)點(diǎn)數(shù)為30 258。采用專利-主題詞構(gòu)圖方式,輸入節(jié)點(diǎn)數(shù)為66 032。試驗(yàn)結(jié)果表明,基于專利-單字符構(gòu)圖方式的圖卷積神經(jīng)網(wǎng)絡(luò)模型,分類整體的平均準(zhǔn)確率為0.810 3,基于專利-主題詞構(gòu)圖方式的圖卷積神經(jīng)網(wǎng)絡(luò)模型,分類整體的平均準(zhǔn)確率為0.793 7。兩種構(gòu)圖方式的分類效果對(duì)比見(jiàn)表3。

        表3 兩種構(gòu)圖方式分類效果對(duì)比

        5.2 專利分類可視化

        使用t分布隨機(jī)鄰居嵌入算法進(jìn)行高維向量降維可視化,對(duì)學(xué)習(xí)到的文檔嵌入可視化。兩種構(gòu)圖方式的專利分類可視化如圖3所示。圖3中,+表示傳動(dòng)系統(tǒng)設(shè)計(jì)模塊相關(guān)專利,▲表示導(dǎo)向系統(tǒng)設(shè)計(jì)模塊相關(guān)專利,■表示車座系統(tǒng)設(shè)計(jì)模塊相關(guān)專利,▼表示車架系統(tǒng)設(shè)計(jì)模塊相關(guān)專利,●表示車輪系統(tǒng)設(shè)計(jì)模塊相關(guān)專利,★表示制動(dòng)系統(tǒng)設(shè)計(jì)模塊相關(guān)專利。

        ▲圖3 兩種構(gòu)圖方式專利分類可視化

        由圖3可以看出,帶有相同標(biāo)簽的專利彼此接近,在向量空間中可以區(qū)分出六種類型。六種類型各自聚集在一起,這意味著大多數(shù)摘要主題詞與對(duì)應(yīng)的設(shè)計(jì)模塊密切相關(guān)。由圖3還可以看出,車架系統(tǒng)設(shè)計(jì)模塊專利分類效果差于其它類別,這是由于車架系統(tǒng)設(shè)計(jì)模塊相關(guān)專利中的摘要會(huì)涉及許多其它模塊相關(guān)專利的主題詞,車架系統(tǒng)設(shè)計(jì)模塊相關(guān)專利和其它模塊相關(guān)專利的耦合性較強(qiáng)。

        5.3 專利語(yǔ)義模型效果

        為了進(jìn)一步對(duì)不同構(gòu)圖方式的專利語(yǔ)義模型效果進(jìn)行分析,將六類基準(zhǔn)專利作為基準(zhǔn)向量,對(duì)各類相似專利與對(duì)應(yīng)的基準(zhǔn)向量進(jìn)行余弦相似度計(jì)算,得到專利語(yǔ)義模型的準(zhǔn)確性。筆者所選用的測(cè)試專利與基準(zhǔn)專利見(jiàn)表4。

        表4 測(cè)試專利與基準(zhǔn)專利

        兩種構(gòu)圖方式的專利語(yǔ)義模型余弦相似度如圖4所示。由圖4可知,六大類共18項(xiàng)專利中,16項(xiàng)專利在基于專利-單字符構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型中與基準(zhǔn)專利的余弦相似度大于基于專利-主題詞構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型。因此,在向量空間中,基于專利-單字符構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型的基準(zhǔn)專利與測(cè)試專利之間的向量更為接近,模型呈現(xiàn)的語(yǔ)義關(guān)系更加準(zhǔn)確。這說(shuō)明了基于專利-單字符構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型的效果優(yōu)于基于專利-主題詞構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型。

        6 檢索分析

        6.1 專利查詢?cè)u(píng)價(jià)標(biāo)準(zhǔn)

        專利查詢結(jié)果往往通過(guò)召回率與準(zhǔn)確率來(lái)衡量,召回率計(jì)算時(shí)并沒(méi)有考慮用戶因素和相關(guān)文檔的排名。目前也有一些算法,如綜合評(píng)價(jià)分?jǐn)?shù),對(duì)召回率進(jìn)行改進(jìn),但是對(duì)于專利集合未知的檢索需求還存在一定問(wèn)題。鑒于此,Magdy等[15]提出一個(gè)結(jié)合結(jié)果中相關(guān)文檔排名情況的專利檢索評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算式為:

        (10)

        (11)

        式中:H為專利檢索評(píng)價(jià)標(biāo)準(zhǔn)值;Zmax為返回給用戶的最大檢索專利數(shù);rq為第q個(gè)相關(guān)文檔的排名;a為相關(guān)文檔數(shù);R為Zmax中的相關(guān)文檔數(shù)。

        對(duì)于專利檢索,最基本的衡量在于召回率,這個(gè)結(jié)果關(guān)注檢索算法的查全率。

        平均準(zhǔn)確率對(duì)于單個(gè)主題而言,指每條相關(guān)專利被檢索后的平均準(zhǔn)確率。平均準(zhǔn)確率是反映系統(tǒng)相關(guān)專利排名的一個(gè)指標(biāo),檢索結(jié)果中相關(guān)專利排名越靠前,平均準(zhǔn)確率就越高。如對(duì)于一個(gè)檢索句,返回結(jié)果相關(guān)專利有五個(gè),排名為1、4、7、9、13,則平均準(zhǔn)確率計(jì)算結(jié)果為:

        (1/1+2/4+3/7+4/9+5/13)/5=0.552

        專利檢索評(píng)價(jià)標(biāo)準(zhǔn)不僅考慮檢索結(jié)果中相關(guān)專利的排名情況,而且兼顧召回率。專利檢索評(píng)價(jià)標(biāo)準(zhǔn)值越大,說(shuō)明檢索算法的召回率越高,相關(guān)專利的排名越靠前。

        6.2 不同檢索式對(duì)比

        在較好的專利-單字符構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型的基礎(chǔ)上,基于設(shè)計(jì)方法學(xué)對(duì)設(shè)計(jì)人員常規(guī)使用的檢索方式進(jìn)行研究,對(duì)專利描述文本按功能-原理-結(jié)構(gòu)、功能-原理、功能三種不同檢索式進(jìn)行對(duì)比試驗(yàn)。采用三種句式進(jìn)行語(yǔ)義檢索,分別為:① 為了達(dá)到防止剎車鎖死的目的,主要通過(guò)剎車器的彈性件與移動(dòng)座之間的動(dòng)作關(guān)系來(lái)實(shí)現(xiàn),剎車器的構(gòu)成部分有夾臂、滑槽、制動(dòng)組件、軸部、彈性件;② 為了達(dá)到防止剎車鎖死的目的,主要通過(guò)剎車器的彈性件與移動(dòng)座之間的動(dòng)作關(guān)系來(lái)實(shí)現(xiàn);③ 為了達(dá)到防止剎車鎖死的目的。檢索出相似專利文本,按照相關(guān)程度從高到低排序,選取前幾項(xiàng)專利。三種檢索式余弦相似度分析見(jiàn)表5。

        ▲圖4 兩種構(gòu)圖方式專利語(yǔ)義模型余弦相似度

        表5 三種檢索式余弦相似度分析

        由表5可以看出,余弦相似度排名前幾位的專利雖然應(yīng)用功能不完全相同,但是專利的摘要內(nèi)容與檢索文本內(nèi)容有所關(guān)聯(lián),這符合檢索文本的目標(biāo)主題。由余弦相似度可知,檢索文本內(nèi)容越豐富,最為相關(guān)的專利的余弦相似度就越小。這是因?yàn)樵诳臻g語(yǔ)義模型中,句子越長(zhǎng)的文本,所包含的語(yǔ)義越豐富,語(yǔ)義吻合度極高的文本相對(duì)就越少。

        6.3 檢索結(jié)果分析

        在基于專利-主題詞構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型中,對(duì)于專利描述文本“為了達(dá)到防止剎車鎖死的目的,主要通過(guò)剎車器的彈性件與移動(dòng)座之間的動(dòng)作關(guān)系來(lái)實(shí)現(xiàn),剎車器的構(gòu)成部分有夾臂、滑槽、制動(dòng)組件、軸部、彈性件”,文本主題詞為“剎車”“鎖死”“夾臂”“滑槽”。筆者為提高專利文本語(yǔ)義分析的準(zhǔn)確性,提取主題詞的相關(guān)擴(kuò)展詞進(jìn)行協(xié)同驗(yàn)證,將訓(xùn)練后的基于專利-主題詞構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型輸出的38 531個(gè)主題詞詞向量與目標(biāo)主題詞進(jìn)行余弦相似度計(jì)算,進(jìn)行相似詞擴(kuò)展。將余弦相似度閾值設(shè)定為0.7,選取語(yǔ)義近似的五個(gè)詞,語(yǔ)義關(guān)聯(lián)詞擴(kuò)展結(jié)果如圖5所示。

        專利檢索評(píng)價(jià)數(shù)據(jù)選用專利語(yǔ)義模型輸出的余弦相似度排名靠前的300條專利數(shù)據(jù),作為文檔庫(kù)專利。此外,將其中的前30條作為返回給用戶的檢索最大結(jié)果數(shù)。通過(guò)主題詞及其語(yǔ)義關(guān)聯(lián)詞的包含與否作為評(píng)價(jià)專利是否相關(guān)的依據(jù),統(tǒng)計(jì)結(jié)果見(jiàn)表6。

        表6 主題詞及語(yǔ)義關(guān)聯(lián)詞相關(guān)專利統(tǒng)計(jì)結(jié)果

        選用的評(píng)價(jià)標(biāo)準(zhǔn)主要有平均準(zhǔn)確率、召回率、專利檢索評(píng)價(jià)標(biāo)準(zhǔn),專利檢索評(píng)價(jià)結(jié)果如圖6所示。

        ▲圖5 語(yǔ)義關(guān)聯(lián)詞擴(kuò)展結(jié)果

        ▲圖6 專利檢索評(píng)價(jià)結(jié)果

        由圖6可知,功能-原理-結(jié)構(gòu)檢索式效果相比功能-原理、功能檢索式更好,因此,基于專利-單字符構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型在功能-原理-結(jié)構(gòu)檢索式中檢索效果更佳。

        7 結(jié)束語(yǔ)

        專利由于專業(yè)性和專利詞匯的相似性,不能簡(jiǎn)單將普通文本直接應(yīng)用于專利檢索。筆者通過(guò)構(gòu)建基于圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型來(lái)對(duì)專利領(lǐng)域進(jìn)行檢索,通過(guò)不同構(gòu)圖方式和不同檢索式來(lái)對(duì)模型進(jìn)行評(píng)估,通過(guò)數(shù)據(jù)分析和對(duì)比可知,采用基于專利-單字符構(gòu)圖方式圖卷積神經(jīng)網(wǎng)絡(luò)的專利語(yǔ)義模型,結(jié)合功能-原理-結(jié)構(gòu)檢索式,在檢索效果方面更佳。筆者基于圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的專利語(yǔ)義模型在一定程度上使檢索變得更加智能,可以為設(shè)計(jì)人員獲取設(shè)計(jì)創(chuàng)新知識(shí)提供更佳有效的專利檢索方式。

        猜你喜歡
        語(yǔ)義文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        日韩精品一区二区三区视频| 美女张开腿黄网站免费| 国产一区二区视频免费| 久久av粉嫩一区二区| 国产不卡在线免费视频| 国产精品髙潮呻吟久久av | 精品国产乱子伦一区二区三| 成年美女黄的视频网站| 久久久午夜精品福利内容| 国产精品青草视频免费播放| 精品人妻一区二区三区蜜臀在线 | 草逼动态图视频免费观看网站| 亚洲av永久无码精品网站在线观看| 亚洲色偷偷色噜噜狠狠99| 国产一毛片| 视频一区中文字幕亚洲| 日本一区二区在线高清| 国产老熟妇精品观看| 国产乱子乱人伦电影在线观看| 午夜亚洲AV成人无码国产| av天堂手机一区在线| 精品国产一区二区三区18p| 一本色道无码不卡在线观看| 乌克兰粉嫩xxx极品hd| 国产aⅴ天堂亚洲国产av| 91中文在线九色视频| 老师开裆丝袜喷水视频| 藏春阁福利视频| 无码国产精品一区二区免费式芒果| 中文字幕一区二区av| 99精品国产一区二区三区不卡 | 四虎影在永久在线观看| 国产啪精品视频网站| 亚洲国产精品无码久久九九大片健| 一区二区三区乱码专区| 中文字幕无码中文字幕有码| 久久人人妻人人做人人爽| 久久久国产精品ⅤA麻豆百度 | 日本经典中文字幕人妻| 久久中文字幕人妻淑女| 国产真实夫妇视频|