亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        專利主題詞的FW-LDA組合改進(jìn)與關(guān)鍵詞演化分析*

        2022-07-18 06:28:04劉晉霞張志宇
        情報雜志 2022年7期
        關(guān)鍵詞:主題詞制氫分類號

        劉晉霞 張志宇 王 芳

        (太原科技大學(xué)經(jīng)濟(jì)與管理學(xué)院 太原 030024)

        0 引 言

        隨著科學(xué)技術(shù)的不斷發(fā)展創(chuàng)新,使得專利文獻(xiàn)數(shù)量不斷增加,產(chǎn)生了龐大的信息數(shù)據(jù),對科研與技術(shù)人員把握技術(shù)發(fā)展前沿產(chǎn)生了很大困難。為及時掌握技術(shù)發(fā)展、輔助技術(shù)決策、提高科研效率,許多學(xué)者對相關(guān)領(lǐng)域展開了技術(shù)主題的挖掘與主題詞的提取,其中以LDA概率主題模型的方法發(fā)展迅速,它能夠通過概率統(tǒng)計定量分析和識別研究主題,得到文檔所屬主題與每個主題下對應(yīng)的主題詞。該模型被證實(shí)能夠取得很好的主題建模效果,目前應(yīng)用較為廣泛,但其自身不能確定主題數(shù)會導(dǎo)致存在主題劃分模糊,以及沒有考慮文檔中詞語出現(xiàn)的順序關(guān)系會缺乏上下文邏輯信息。

        因此,本文提出一種基于FW(Filter words)-LDA組合改進(jìn)方法,通過LDA模型提取每個主題及對應(yīng)的主題詞后,對主題詞進(jìn)行過濾(FW),以解決LDA模型主題劃分模糊以及缺乏上下文邏輯關(guān)系的問題。并且將該組合改進(jìn)方法應(yīng)用于我國制氫技術(shù)專利數(shù)據(jù)集的演化分析,以把握技術(shù)發(fā)展規(guī)律。

        1 相關(guān)研究工作概述

        概率主題模型最早起源于潛在語義分析LSA(Latent Semantic Analysis)[1],之后發(fā)展為概率潛在語義分析PLSA(Probabilistic Latent Semantic Analysis)[2]以及在PLSA的基礎(chǔ)上加入了貝葉斯先驗(yàn)分布的潛在狄利克雷分布LDA(Latent Dirichlet Allocation)[3],關(guān)于LDA概率主題模型改進(jìn)的研究成果已有很多,主要可以分為三類:

        第一類是對LDA模型本身的改進(jìn)。這類方法主要是在LDA模型內(nèi)部,通過調(diào)節(jié)分布或權(quán)重,更加準(zhǔn)確地識別主題。如Blei等[4]提出的DTM模型是將文檔按小時間尺度順序分箱,對每個分箱內(nèi)的LDA模型之間的全局變量通過指數(shù)分布進(jìn)行連接,通過引入時間動態(tài)的概念,來更好地建模主題;BTM算法[5]結(jié)合層級Dirchlet語言模型和LDA,通過Biterm來建模,將詞的順序作為影響主題確定的因素;加權(quán)主題模型[6]對不同詞進(jìn)行權(quán)重的分配,解決LDA模型的分析結(jié)果向高頻詞傾斜而淹沒能夠代表主題的多數(shù)詞問題。但是這類方法會因沒有與外部信息相結(jié)合而缺乏主題語境信息,或通過調(diào)節(jié)權(quán)重來改變生成詞概率時需要大量數(shù)據(jù)集進(jìn)行驗(yàn)證及優(yōu)化。第二類是LDA模型與其他外部結(jié)構(gòu)或信息相結(jié)合的改進(jìn)。如楊超等[7]基于SAO結(jié)構(gòu)[8]的LDA主題模型方法,改善專利技術(shù)主題辨識度低等問題;廖列法等[9]在LDA算法上,通過引入IPC分類號來度量技術(shù)主題強(qiáng)度,實(shí)現(xiàn)了對主題強(qiáng)度、內(nèi)容和技術(shù)主題強(qiáng)度三方面的演化研究;李昌等[10]引入IPC分類號作為語境信息,實(shí)現(xiàn)對專利主題更加明確的分類。但是這類方法會因只提取了部分文本詞,而出現(xiàn)上下文邏輯缺失的問題,或只考慮加入語境,而對主題下的詞語仍使用概率分布獲得,缺乏上下文邏輯關(guān)系。第三類是LDA模型與其他模型的結(jié)合改進(jìn)。如Zaheer M[11]等人將LDA模型中文檔主題的Dirchlet(狄利克雷)分布改為LSTM的內(nèi)容,以對序列文本進(jìn)行建模;Xie X等[12]提出了一種基于RNN的聚類方案來學(xué)習(xí)標(biāo)準(zhǔn)LDA聚類標(biāo)簽隨時間的自然相關(guān)性,解決了LDA模型在聚類中忽略相鄰聚類之間轉(zhuǎn)移和相關(guān)性的問題;莊穆妮等[13]將LDA主題模型與BERT詞向量深度融合,來優(yōu)化主題向量與文本主題聚類效果。這類方法能有效地進(jìn)行文本詞的訓(xùn)練并助力主題的劃分聚類,提高主題識別的準(zhǔn)確性。

        綜上所述,目前針對主題建模以及主題關(guān)鍵詞的提取,主要利用LDA概率主題模型。大量學(xué)者針對其存在主題劃分模糊、未考慮上下文邏輯關(guān)系的問題進(jìn)行了多種方法的改進(jìn),但與其他模型結(jié)合,從過濾篩選主題詞角度進(jìn)行問題改進(jìn)的相關(guān)工作較少。因此,本文以過濾處理主題詞的角度,提出一種FW-LDA組合改進(jìn)方法,對LDA模型輸出做進(jìn)一步的主題標(biāo)識、訓(xùn)練詞向量和建立相似度處理,使過濾出的主題關(guān)鍵詞能夠獲得更好的主題劃分泛化能力和主題聚類的效果。

        2 方法構(gòu)建

        FW-LDA方法流程如下:①數(shù)據(jù)收集與預(yù)處理:在專利數(shù)據(jù)檢索系統(tǒng)中,收集一段時間內(nèi)的專利文獻(xiàn),選取出專利分類號和語料庫,并對語料庫預(yù)處理得到模型輸入文本。②LDA概率主題識別:將模型輸入文本作為LDA模型的輸入,輸出每項(xiàng)文檔所屬主題以及主題詞。③定義主題標(biāo)識詞:通過對專利分類號的選取與定義解釋、語料庫以及LDA輸出信息,定義LDA中輸出的每個主題標(biāo)識,得到主題標(biāo)識詞。④負(fù)采樣模型過濾主題詞:將模型輸入文本和定義的主題標(biāo)識詞作為負(fù)采樣模型的輸入,過濾LDA模型中輸出的主題詞,得到主題關(guān)鍵詞結(jié)果。如圖1所示。

        圖1 FW-LDA方法流程

        2.1 數(shù)據(jù)收集與預(yù)處理模塊

        本模塊分為兩個步驟:

        第1步,文本數(shù)據(jù)選取。首先在專利平臺中對專利類型進(jìn)行選取,其次對選取的每項(xiàng)專利進(jìn)行數(shù)據(jù)項(xiàng)的選取與文本項(xiàng)的選取,其中專利分類號作為數(shù)據(jù)項(xiàng)的選取結(jié)果;建立語料庫作為文本項(xiàng)的選取結(jié)果。

        第2步,文本預(yù)處理。對文本項(xiàng)中建立的語料庫,進(jìn)行中文停用詞表的清洗,并對清洗后的文本建立自定義詞典和分詞,得到可用于LDA模型和負(fù)采樣模型的輸入文本。

        2.2 LDA概率主題識別模塊

        LDA算法是一種無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),通過一個貝葉斯鏈?zhǔn)疥P(guān)系,公式為(1),概率生成文檔主題的模型[3]。

        (1)

        將語料庫中的所有詞語進(jìn)行分主題聚類,實(shí)現(xiàn)全自動地從數(shù)據(jù)集中抽取出每項(xiàng)文檔所屬主題wj|zk,以及文檔中的每個詞語所屬主題zk|di,即主題詞。

        但是LDA模型存在一定的不足:第一,LDA方法本身不能生成最優(yōu)主題數(shù)[14],而是要依靠Blei[3]提出使用困惑度的方法來設(shè)定,以困惑度最小值或拐點(diǎn)處對應(yīng)的主題數(shù)作為模型的最優(yōu)主題數(shù),當(dāng)設(shè)定的困惑度較高時,往往會導(dǎo)致主題劃分不準(zhǔn)確,泛化能力弱。第二,LDA能通過頻率計算出詞語所對應(yīng)主題,但LDA模型是一個詞袋模型,在詞袋中一篇文檔是由一組詞構(gòu)成的集合,詞與詞之間沒有順序,未能將詞與詞之間的關(guān)系納入計算[15]。因此本文針對這兩個不足,在專利語料庫進(jìn)行LDA概率主題識別的基礎(chǔ)上,通過定義主題標(biāo)識詞、負(fù)采樣模型過濾主題詞的組合來改進(jìn)LDA模型識別結(jié)果。

        2.3 定義主題標(biāo)識詞模塊

        LDA模型對專利文本進(jìn)行主題分類時,輸出中沒有每個分類主題的標(biāo)識,但每個主題下的詞語是由聚類產(chǎn)生,都有其隱含的標(biāo)識詞,因此通過尋找每個主題的含義定義主題標(biāo)識詞。數(shù)據(jù)庫中的每項(xiàng)專利都有按照技術(shù)分配的專利分類號,其中的每個專利分類號都有特定的含義。專利分類號來源于國際專利分類系統(tǒng)體系,它是我國進(jìn)行專利分類的常用體系,按照不同技術(shù)主題把整個技術(shù)領(lǐng)域分為5個不同層級:部、大類、小類、大組、小組[16],部是對技術(shù)領(lǐng)域最大的劃分層級,其余層級是更細(xì)致的逐級劃分,分類越細(xì)致則專利之間差異性越小[9]。因此,本文通過LDA模型輸出信息和國際專利分類系統(tǒng)信息相結(jié)合,定義每個主題的標(biāo)識詞,過程如下:

        第1步,提取每個主題信息。

        在通過LDA模型對專利文本進(jìn)行建模后,依據(jù)所輸出的每項(xiàng)文檔所屬主題,提取每個主題對應(yīng)的語料庫以及專利分類號。

        第2步,選擇專利分類號。

        由于使用最小困惑度來確定分類的最優(yōu)主題數(shù)和使用國際專利分類系統(tǒng)的分類存在差距,因此在LDA模型輸出每個主題所對應(yīng)的文檔中會有多個專利分類號,這使得對主題標(biāo)識詞的定義產(chǎn)生一定困難。選擇合適的專利分類號可以減少定義的復(fù)雜度并且提高主題劃分的準(zhǔn)確度,本文建立兩個指標(biāo)選取專利號。第一,選擇的專利分類號在某一主題下文檔數(shù)的占比大于其他主題中文檔數(shù)的占比,該指標(biāo)能夠?qū)δ骋恢黝}與其他主題進(jìn)行區(qū)分,體現(xiàn)每個主題的特點(diǎn),公式為(2)。

        (2)

        第二,選擇的專利分類號在某一主題下所占的文檔數(shù)最多,該指標(biāo)能夠體現(xiàn)某一專利分類號在該主題的重要程度,公式為(3)。

        (3)

        其中,Q代表專利號,Q=q代表第q個專利號,N代表主題,N=n代表第n個主題,MIPC為專利分類號數(shù)量,Mtext為專利文本數(shù)量。

        第3步,結(jié)合語料庫與LDA輸出信息

        通過選擇出每個主題的專利分類號,以國際專利分類系統(tǒng)中對專利分類號的定義為基礎(chǔ),結(jié)合專利語料庫信息與LDA輸出的主題詞,最終選擇適合每個主題的詞語作為主題標(biāo)識詞。

        定義主題標(biāo)識詞是組合改進(jìn)方法的基礎(chǔ)和關(guān)鍵步驟。它既是對LDA模型中輸出每個主題的概括,也是負(fù)采樣過濾主題詞模塊時的輸入文本,要使得經(jīng)過過濾后得到的主題關(guān)鍵詞,包含大部分屬于LDA中原本輸出的主題詞,并且能夠使主題劃分更加清晰。與單獨(dú)依據(jù)LDA模型中輸出的主題詞,主觀定義主題標(biāo)識詞的方法相比,本文在此基礎(chǔ)上,通過結(jié)合提取的專利語料庫信息、LDA輸出信息與國際專利分類系統(tǒng)對專利分類號的定義多方面考慮來定義,使效果更加準(zhǔn)確。

        2.4 負(fù)采樣過濾主題詞模塊

        負(fù)采樣模型[17]是對Skip-Gram模型的改進(jìn),Skip-Gram模型是在Word2Vec[18]工具中,用來訓(xùn)練出低維詞向量的模型[19]。但Skip-Gram模型在更新時,每次都要訓(xùn)練詞典中的所有分詞,概率也做相應(yīng)調(diào)整。而在實(shí)際運(yùn)行過程中,通過Softmax[20]運(yùn)算得到概率值基本為零,全部更新就會消耗計算資源。因此,引進(jìn)負(fù)采樣模型,其本質(zhì)是每次只選擇正樣本以及部分負(fù)樣本進(jìn)行訓(xùn)練與更新,減少Softmax的計算量,以更加迅速有效地得到詞向量。

        LDA主題識別模型不考慮上下文邏輯關(guān)系,負(fù)采樣模型的一大特點(diǎn)正是對詞語之間的關(guān)系進(jìn)行描述,更加注重上下文邏輯[15]。利用負(fù)采樣訓(xùn)練詞向量并建立向量間的相似度量,以定義的主題標(biāo)識詞作為查詞對象,計算并輸出其相似詞及相似系數(shù),來篩選過濾LDA模型輸出中的主題詞。

        3 實(shí)證研究

        3.1 數(shù)據(jù)收集與預(yù)處理

        3.1.1文本數(shù)據(jù)選取

        本文研究對象為我國制氫技術(shù)領(lǐng)域的專利文獻(xiàn),檢索平臺選擇“專利之星檢索系統(tǒng)”,使用表格檢索,檢索式為“TX=制氫&制備氫”(TX表示關(guān)鍵詞)、“AD=20010101>20191231”(AD表示申請日、20010101>20191231表示時間跨度為2001—2019年),共檢索得到9 243篇專利文獻(xiàn)。其中專利類型為發(fā)明的專利6753篇、實(shí)用新型專利2 403篇、外觀設(shè)計專利87篇。由于發(fā)明專利具備突出的實(shí)質(zhì)性特點(diǎn)、顯著性進(jìn)步、新穎性和創(chuàng)造性水平更高、保護(hù)年限長、保護(hù)產(chǎn)品方法與技術(shù)的優(yōu)點(diǎn),因此選擇發(fā)明專利為研究對象。發(fā)明專利中的法律狀態(tài)包括有效、審中和失效專利,其中有效專利2 372篇、失效專利3 150篇(失效但有過授權(quán)的專利為694篇)。由于專利會隨著時間失效,但曾有專利的授權(quán)就說明該技術(shù)曾為有效專利,創(chuàng)新研究被認(rèn)可,故選取法律狀態(tài)為有效和已失效但曾有授權(quán)時間的專利。

        根據(jù)以上選取條件,共檢索得到3 066篇專利文獻(xiàn)。將其導(dǎo)出后對專利權(quán)人、發(fā)明人名稱規(guī)范與消歧[21]以及對重復(fù)文本剔除,經(jīng)過篩選,共有2 665條專利記錄。每項(xiàng)記錄中包括發(fā)明人、標(biāo)題、分類號、摘要、法律狀態(tài)、專利類型等20項(xiàng)內(nèi)容。由于專利的標(biāo)題和摘要最能體現(xiàn)所用技術(shù)、方法和效果[22],所以選取標(biāo)題和摘要作為文本項(xiàng)的語料庫,并且在定義主題標(biāo)識詞時,要利用專利分類號,故選取專利分類號作為數(shù)據(jù)項(xiàng)。

        3.1.2文本預(yù)處理

        對語料庫進(jìn)行信息整合后進(jìn)行預(yù)處理工作,得到模型輸入文本。

        a.以標(biāo)點(diǎn)符號和在每項(xiàng)專利摘要中出現(xiàn)的“本發(fā)明”“一項(xiàng)”“公開”等不影響上下文邏輯關(guān)系、高頻無用的詞語建立停用詞表。

        b.以文獻(xiàn)關(guān)鍵詞和搜狗詞庫中下載相關(guān)的專利詞語詞庫來建立自定義詞典。

        c.使用中文分詞組件Jieba(可由https://github.com/fxsjy/jieba下載)和人工分詞相結(jié)合的方法對語料庫進(jìn)行分詞,提高分詞準(zhǔn)確性。

        3.2 LDA概率主題識別

        使用Python3作為開發(fā)平臺,選用Scikit-Learn中的LDA主題模型,其主要基于變分推斷EM算法進(jìn)行參數(shù)估計[23]。

        首先,通過計算困惑度來確定最優(yōu)主題數(shù),圖2為1~50個主題時分別對應(yīng)的困惑度值,最終選取困惑度最低點(diǎn)對應(yīng)的Number of Topic作為模型的最優(yōu)主題數(shù),故設(shè)置K=17進(jìn)行建模,參數(shù)α和β使用默認(rèn)值。其次在理論上,困惑度越小,泛化能力越強(qiáng),但其學(xué)習(xí)效果與迭代次數(shù)密切相關(guān),隨著迭代次數(shù)增加,收斂速度無明顯變化[14],因此將文檔迭代次數(shù)設(shè)置為1000次。

        圖2 1-50主題下的困惑度值

        通過LDA對語料庫的訓(xùn)練,輸出每個文本對應(yīng)的最大概率主題和每個主題下按照概率大小排列的詞語。對于一個主題下的詞語,與該主題的距離越大,概率越小,聚類程度降低,因此設(shè)置每個主題下的概率前100的詞語(n_top_words=100),并將其作為負(fù)采樣模型進(jìn)行過濾的對象。

        3.3 定義主題標(biāo)識詞

        通過兩個指標(biāo)選取每個主題專利分類號。在專利之星檢索系統(tǒng)中,提取出的專利分類號層級為小組層級,可以將其分解為任何需要的層級。根據(jù)國際專利分類表,不同的分類層級會對標(biāo)識詞的設(shè)定產(chǎn)生不同的效果[24],故提取10%數(shù)量的文本,對它們所對應(yīng)的大類、小類和小組專利分類號進(jìn)行效果對比分析,結(jié)果發(fā)現(xiàn),基于大類進(jìn)行設(shè)定時,會使標(biāo)識詞過于粗泛,使得不同的主題有相同的標(biāo)識詞,主題間相似度偏大;而基于大組或小組的主題詞會使得每個主題下的分類過多,找不準(zhǔn)聚類詞語。因此,實(shí)驗(yàn)以小類層級為標(biāo)準(zhǔn)來輔助定義主題的標(biāo)識詞,使主題劃分更加明確。經(jīng)過信息的結(jié)合,定義出每個主題的主題標(biāo)識詞如表1。

        表1 主題標(biāo)識詞

        3.4 負(fù)采樣模型過濾主題詞

        實(shí)驗(yàn)使用Python3作為開發(fā)平臺,選用Gensim工具包中的負(fù)采樣模型訓(xùn)練詞向量。通過實(shí)驗(yàn),輸出不重復(fù)的詞語數(shù)量共有17 704個。

        3.4.1參數(shù)設(shè)定

        本實(shí)驗(yàn)將維度參數(shù)設(shè)置為50,負(fù)樣本的個數(shù)設(shè)置為5,滑動窗口大小設(shè)置為4。其中,在維度參數(shù)設(shè)置時,通過學(xué)者的大量實(shí)驗(yàn)得出,降維至50~300維的范圍為最佳,在此范圍內(nèi),若設(shè)置為50維,計算速度相對快,若設(shè)置為300維,計算相對更加準(zhǔn)確。本實(shí)驗(yàn)隨機(jī)抽取10%的文本,分別將維度參數(shù)設(shè)置為50、100、200、300,通過查詞的效果比較發(fā)現(xiàn),維度為50維時,計算速度快,并且與100維、200維和300維時的相似詞基本相同,因此,本實(shí)驗(yàn)設(shè)置維度參數(shù)Feature_Number=50,并且通過訓(xùn)練出的低維詞向量,建立詞語之間的相似度量。

        3.4.2主題關(guān)鍵詞的過濾

        以主題標(biāo)識詞為查詞對象,設(shè)定Vocabulary_Similar(“標(biāo)識詞”,100),以此計算出與主題標(biāo)識詞相似系數(shù)高的前100的詞,依據(jù)這些詞對3.2中設(shè)置的每個主題下前100個主題詞,通過選擇兩者的前20個相同詞的方法過濾出主題關(guān)鍵詞。由于LDA模型輸出的主題詞是根據(jù)詞頻,而負(fù)采樣模型是根據(jù)上下文邏輯關(guān)系,所以兩者出現(xiàn)相同詞的順序不同,因此有兩種標(biāo)準(zhǔn),第一種是以LDA中主題詞為準(zhǔn),選取LDA中與負(fù)采樣模型中輸出的前20位相同詞,第二種是以負(fù)采樣模型中輸出詞為準(zhǔn),選取其與LDA主題中詞的前20位相同詞,作為選詞結(jié)果,由于考慮到第二種選詞方式會導(dǎo)致聚類程度過大,在關(guān)鍵詞演化過程中出現(xiàn)相同意義詞演化的情況,因此選擇使用第一種選詞方式。

        4 效果對比驗(yàn)證

        本文將相同主題數(shù)下,F(xiàn)W-LDA方法、LDA模型與TF-IDF算法、BTM模型所輸出的主題相互對應(yīng)。通過對主題詞展示以及逐點(diǎn)互信息、Pearson(皮爾遜)相關(guān)系數(shù)的方法,從主題詞和混淆效果、聚類效果三個方面,對比驗(yàn)證FW-LDA方法的有效性與準(zhǔn)確性。

        4.1 主題詞對比驗(yàn)證

        主題詞對比驗(yàn)證的對象,是四種模型輸出的每個主題前20個關(guān)鍵詞。由于TF-IDF算法、BTM模型與LDA模型中的主題詞差距較小,因此本文僅以LDA模型和FW-LDA方法為例,如表2中的Topic3和表3中的Topic13??梢园l(fā)現(xiàn),在經(jīng)過FW-LDA方法后,可以過濾掉LDA模型中主題辨別能力差以及與該主題相關(guān)性小的關(guān)鍵詞。

        表2 Topic3效果對比

        表3 Topic13效果對比

        4.2 混淆效果驗(yàn)證

        混淆效果體現(xiàn)在主題之間,逐點(diǎn)互信息PMI(Pointwise Mutual Information)指標(biāo)是可以作為衡量主題相關(guān)性的評估指標(biāo),為避免計算中出現(xiàn)-∞,通常計算PPMI(Positive PMI),其公式為(4)。本文通過該指標(biāo),度量四種模型中某一主題與其他主題之間的相似程度。

        (4)

        其中,tk,tj分別表示第k個主題和第j個主題,Xtk,Xtj表示兩個不同主題之間相同詞的個數(shù)。

        為清晰地比較結(jié)果,本文將計算每個主題的AN-PPMI值,其公式為(5)。三個模型的AN-PPMI值比較結(jié)果如圖3所示。

        圖3 AN-PPMI值比較結(jié)果

        (5)

        其中,n表示主題總數(shù)量,N-PPMI值表示對每一主題的PPMI值進(jìn)行歸一化,得到該主題與其他各個主題之間的相關(guān)系數(shù)。

        由圖3可知,在大多數(shù)的主題下,F(xiàn)W-LDA方法中的AN-PPMI數(shù)值低于其他三種模型,說明主題之間的混淆程度降低,主題劃分更加明確。

        4.3 聚類效果驗(yàn)證

        聚類效果體現(xiàn)在主題內(nèi)部的關(guān)鍵詞中,本文根據(jù)負(fù)采樣模型訓(xùn)練出的詞向量,運(yùn)用Pearson(皮爾遜)相關(guān)系數(shù)的方法,計算主題內(nèi)部關(guān)鍵詞之間的相關(guān)系數(shù),其公式如(13),通過比較四種模型中的Pearson最小相關(guān)系數(shù)以及平均相關(guān)系數(shù),來驗(yàn)證主題內(nèi)部聚類效果。因篇幅有限,無一一羅列兩種模型的Pearson相關(guān)系數(shù),這里僅以四種模型相互對應(yīng)主題后的Topic0至Topic3為例進(jìn)行對比。結(jié)果為表4,min和avg分別表示主題內(nèi)關(guān)鍵詞之間的Pearson最小相關(guān)系數(shù)和平均相關(guān)系數(shù)。

        (6)

        其中,X、Y表示兩個詞向量。

        表4 四種模型的Pearson系數(shù)

        由Pearson相關(guān)系數(shù)的比較可知,F(xiàn)W-LDA中主題內(nèi)關(guān)鍵詞之間的相關(guān)系數(shù)大,方法的改進(jìn)產(chǎn)生聚類效果。

        綜上所述,通過對輸出主題詞、主題間混淆關(guān)系以及主題關(guān)鍵詞內(nèi)部聚類效果的對比驗(yàn)證可以得出,相比LDA模型、TF-IDF算法和BTM模型,F(xiàn)W-LDA方法能夠使主題之間混淆度降低、劃分更加準(zhǔn)確,主題內(nèi)部的關(guān)鍵詞相關(guān)性增強(qiáng)、結(jié)果更加聚類。

        5 演化分析

        通過對不同主題關(guān)鍵詞的演化分析,可以及時把握技術(shù)發(fā)展動態(tài),挖掘技術(shù)創(chuàng)新規(guī)律。本文對2001—2019年的專利文本進(jìn)行演化分析,在時間切片后,利用FW-LDA的方法選取每個時間切片最優(yōu)主題數(shù)下的主題關(guān)鍵詞;將這些詞進(jìn)行去重,并通過負(fù)采樣模型建立的相似度量,設(shè)置關(guān)鍵詞之間的相似度閾值,確定有演化關(guān)系的詞語作為演化關(guān)鍵詞結(jié)果。其流程如圖4所示。

        圖4 演化流程

        5.1 時間切片

        本文將2001—2019年分為5個時間切片,由于前7年專利數(shù)目較少,因此將其作為一個時間切片,其他以3年為單位進(jìn)行時間切片。最終切片結(jié)果為2001—2007年、2008—2010年、2011—2013年、2014—2016年和2017—2019年。

        5.2 主題關(guān)鍵詞選取

        對每個時間切片下的語料庫進(jìn)行困惑度計算,選擇困惑度最小所對應(yīng)的主題數(shù)作為該時間切片下的最優(yōu)主題數(shù)Kt,5個時間切片的最優(yōu)主題數(shù)分別為K2001—2007=11,K2008-2010=3,K2011-2013=12,K2014-2016=18,K2017-2019=7。

        利用FW-LDA方法進(jìn)行演化前的主題關(guān)鍵詞選取。對每個時間切片下所有主題,先計算輸出LDA模型中詞頻位于前100的詞語,再應(yīng)用國際專利分類系統(tǒng)中對應(yīng)專利分類號的小類層級含義、LDA輸出信息、語料庫相結(jié)合定義主題標(biāo)識詞,并將其作為查詞對象,利用負(fù)采樣模型構(gòu)建的相似度量計算其相似詞及相似系數(shù),對LDA模型中的主題詞進(jìn)行過濾篩選,過濾出與標(biāo)識詞相關(guān)系數(shù)大的前20個詞,作為主題關(guān)鍵詞的選取結(jié)果。

        5.3 演化關(guān)鍵詞選取

        本文演化的目的是分析主題關(guān)鍵詞出現(xiàn)的最早時間,因此,演化關(guān)鍵詞的選取對象為主題關(guān)鍵詞中的不同詞,對5.2中得到的主題關(guān)鍵詞再進(jìn)行兩次篩選。第一次篩選是去重篩選,將每個時間切片所有主題關(guān)鍵詞,先是進(jìn)行時間切片內(nèi)關(guān)鍵詞去重,再按照相鄰時間切片進(jìn)行依次去重。第二次篩選是相似度篩選,通過負(fù)采樣模型建立的相似度量,進(jìn)行相鄰時間切片詞與詞之間的相似度查詢,以相似度系數(shù)0.78作為閾值,相似度系數(shù)小于0.78視為沒有演化關(guān)系的詞語,不進(jìn)行演化分析。相似度系數(shù)的設(shè)定從兩方面考慮:一方面,相似度系數(shù)過小會導(dǎo)致相似詞過多,演化結(jié)果不清晰;另一方面,相似度系數(shù)過大會導(dǎo)致一些主要關(guān)鍵詞找不到相似詞。因此將相似系數(shù)設(shè)定為0.78,這樣既能保證演化清晰度,也能保證主要關(guān)鍵詞可以找到相鄰時間切片的相似詞,經(jīng)過兩次篩詞后,得到每個時間切片的演化關(guān)鍵詞,其數(shù)量分別為54、20、34、42、16。

        依據(jù)演化關(guān)鍵詞的特點(diǎn),可以將其大致分解為5個分支,分別為操作(環(huán)境)、材料、裝置、制備方法和目標(biāo),如圖5所示。

        圖5 演化關(guān)鍵詞的分支結(jié)果

        由于制備方法和制備材料之間的關(guān)鍵詞聯(lián)系密切,能夠較直接地體現(xiàn)發(fā)展技術(shù),并且它們的演化關(guān)鍵詞和演化關(guān)系較為復(fù)雜,因此本文在圖5的5個分支中,聚焦制備方法和制備材料兩個方面的演化關(guān)鍵詞,分析技術(shù)發(fā)展?fàn)顟B(tài)。兩者之間的聯(lián)系與演化如圖6所示,每個時間切片中加粗字體是制氫方法的演化關(guān)鍵詞,淺色字體代表制氫材料的演化關(guān)鍵詞,空白處表示沒有對應(yīng)的演化關(guān)鍵詞,即沒有方法或材料的發(fā)展。

        圖6 制備方法與材料的演化

        根據(jù)2001—2007年期間的演化關(guān)鍵詞,發(fā)現(xiàn)主要有氣體制氫、催化重整制氫、金屬水溶液制氫、生物制氫、化學(xué)制氫、光催化制氫以及發(fā)電制氫的方法以及所對應(yīng)材料,在之后的時間段對其不斷發(fā)展。2008—2010年期間,發(fā)展氣體制氫、化學(xué)制氫及光催化制氫的材料,并且在光催化制氫上發(fā)展可見光制氫與光解水制氫方法,在金屬水溶液制氫上發(fā)展分解水制氫方法;2011—2013年期間,在可見光制氫、光解水制氫上發(fā)展光伏制氫方法,分解水制氫上發(fā)展車載制氫方法,化學(xué)制氫上發(fā)展化學(xué)鏈循環(huán)制氫方法,并對這幾種方法以及氣體制氫、催化重整制氫、發(fā)電制氫發(fā)展新材料;2014—2016年期間,在光伏制氫上發(fā)展光催化水解制氫的方法與材料,在車載制氫上發(fā)展水解制氫方法,在發(fā)電制氫上發(fā)展電解水制氫、電催化制氫和電化學(xué)制氫的方法和材料,氣體制氫和催化重整制氫的材料,與此同時發(fā)展生物質(zhì)制氫與化學(xué)鏈制氫相結(jié)合的方法與材料;2017—2019年期間,主要將化學(xué)鏈制氫、光催化水解制氫以及電催化、電解水、電化學(xué)制氫結(jié)合,發(fā)展光電化學(xué)制氫的制備方法和材料。從整體來說,2008—2019年期間對2001—2007年期間的制氫方法與材料都有相應(yīng)的發(fā)展,尤其以化學(xué)制氫、光催化制氫與發(fā)電制氫發(fā)展迅速。

        5 結(jié)語

        LDA概率主題模型進(jìn)行建模時,存在主題劃分模糊、未考慮上下文邏輯關(guān)系的問題,針對這兩個問題,本文以過濾輸出主題詞的角度提出一種FW-LDA組合改進(jìn)方法。在LDA輸出的基礎(chǔ)上,首先通過對專利分類號的選擇,輔助定義每個主題的主題標(biāo)識詞;其次運(yùn)用負(fù)采樣模型能夠考慮上下文邏輯關(guān)系的特點(diǎn),訓(xùn)練每個詞語的低維詞向量,并建立相似度量來計算主題標(biāo)識詞的相似詞和相似系數(shù),對LDA模型中輸出的主題詞進(jìn)行過濾。以2001—2019年制氫領(lǐng)域的整體專利文獻(xiàn)為實(shí)證對象,通過模型的對比驗(yàn)證發(fā)現(xiàn),F(xiàn)W-LDA組合改進(jìn)方法能夠使主題之間的混淆程度更加準(zhǔn)確,主題劃分清晰,并且使得主題內(nèi)關(guān)鍵詞起到聚類的效果。在實(shí)證分析及效果驗(yàn)證后,本文利用FW-LDA方法,對整體文本進(jìn)行時間切片,輸出每個時間切片的主題關(guān)鍵詞;通過去重篩選和相似度篩選得到演化關(guān)鍵詞;并利用這些詞進(jìn)行演化分析,挖掘該領(lǐng)域的技術(shù)發(fā)展?fàn)顟B(tài)。本文在演化分析進(jìn)行時間切片時,僅以文章數(shù)量為切片條件,未來嘗試不斷調(diào)整切片時間,以得到發(fā)展技術(shù)內(nèi)容的具體時間點(diǎn)而非時間段。

        猜你喜歡
        主題詞制氫分類號
        A Study on the Change and Developmentof English Vocabulary
        制氫工藝技術(shù)比較
        高活性Al-LiBH4-Bi鋁基復(fù)合制氫材料
        Translation on Deixis in English and Chinese
        我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀(jì)的Ei主題詞
        我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀(jì)的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        The law of exercise applies on individual behavior change development
        《疑難病雜志》2014年第13卷主題詞索引
        電解制氫設(shè)備開發(fā)入選“863”
        低溫與特氣(2014年4期)2014-03-20 13:36:50
        日本成人免费一区二区三区| 美女网站免费福利视频| 亚洲色国产欧美日韩| 亚洲色偷拍区另类无码专区| 无码av一区在线观看| 手机在线看片在线日韩av| 美女扒开内裤让我捅的视频| 国产精品白丝久久av网站| 国产美女在线精品免费观看| 免费人成在线观看播放国产| 白白色发布永久免费观看视频 | 日韩a级精品一区二区| 久久青青草原亚洲av无码麻豆| 国产精品无套内射迪丽热巴| 男人深夜影院无码观看| 国产少妇露脸精品自拍网站| 亚洲精品中文字幕一区二区| 777国产偷窥盗摄精品品在线| 人妻无码一区二区三区四区| 男女高潮免费观看无遮挡| 日本高清一区二区在线播放| 亚洲精品国产一二三区| 性欧美老人牲交xxxxx视频| 午夜短视频日韩免费| 久久人妻少妇中文字幕| 国产专区国产精品国产三级| 又黄又爽又无遮挡免费的网站| 好男人日本社区www| 91在线区啪国自产网页| 亚洲精品成人一区二区三区 | 狂野欧美性猛xxxx乱大交| 囯产精品一品二区三区| 欧美亚洲尤物久久综合精品| 国产精品女同一区二区免| 高清午夜福利电影在线| 免费无码黄动漫在线观看| 亚洲va在线va天堂va四虎| 国产激情视频高清在线免费观看| 无套无码孕妇啪啪| 国产成人一区二区三区影院动漫| 亚洲人成网站久久久综合|