亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于TextRank 和簇過濾的林業(yè)文本關(guān)鍵信息抽取研究

2020-07-07 06:09:10陳志泊李鈺曼馮國(guó)明師棟瑜崔曉暉

農(nóng)業(yè)機(jī)械學(xué)報(bào) 2020年5期

陳志泊李鈺曼許福馮國(guó)明師棟瑜崔曉暉

(1.北京林業(yè)大學(xué)信息學(xué)院，北京100083;2.中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司，北京100033;3.中國(guó)電信系統(tǒng)集成有限責(zé)任公司，北京100035)

0 引言

隨著互聯(lián)網(wǎng)與人工智能技術(shù)的飛速發(fā)展，我國(guó)傳統(tǒng)林業(yè)也逐步向“智慧林業(yè)”邁進(jìn)。對(duì)于網(wǎng)絡(luò)上數(shù)量呈爆發(fā)式增長(zhǎng)的林業(yè)文本來說，如何節(jié)省閱讀時(shí)間、從中準(zhǔn)確獲取與林業(yè)領(lǐng)域有關(guān)的信息具有重要的研究意義［1-2］。

文本關(guān)鍵信息應(yīng)包含關(guān)鍵詞和信息類型。目前大多數(shù)的林業(yè)文本并沒有標(biāo)注關(guān)鍵詞，早期的關(guān)鍵詞抽取是通過人工標(biāo)注、借助人類的專業(yè)知識(shí)完成的，工作任務(wù)十分繁重。隨著計(jì)算機(jī)技術(shù)的發(fā)展，借助計(jì)算機(jī)程序抽取關(guān)鍵詞成為更好的選擇［3-6］。關(guān)鍵詞抽取主要分為有監(jiān)督和無監(jiān)督兩類［7］。由于有監(jiān)督算法標(biāo)注成本高，且存在過擬合的問題，近年來，無監(jiān)督關(guān)鍵詞抽取算法得到廣大科研人員的青睞。常見的無監(jiān)督關(guān)鍵詞抽取方法有3 種:基于統(tǒng)計(jì)特征［8-9］、基于詞圖模型［10-12］和基于主題模型［13］的關(guān)鍵詞抽取?；诮y(tǒng)計(jì)特征的關(guān)鍵詞抽取算法［14-15］將文本詞語的統(tǒng)計(jì)信息記為特征信息，如詞頻特征、逆文檔頻率特征、長(zhǎng)度特征、位置特征等，再對(duì)特征信息進(jìn)行相應(yīng)的量化處理，最后抽取出文本關(guān)鍵詞。其缺點(diǎn)是忽略了詞語之間的相互關(guān)系，效果有時(shí)并不理想?；谥黝}模型的關(guān)鍵詞抽取算法［16-17］認(rèn)為每個(gè)文本都對(duì)應(yīng)著一個(gè)或多個(gè)主題，而每個(gè)主題都會(huì)有相對(duì)應(yīng)的詞分布，通過分布信息得到文本與詞的關(guān)聯(lián)情況，進(jìn)而得到文本關(guān)鍵詞，以LDA 隱含主題模型為經(jīng)典代表。其缺點(diǎn)是模型需要大量的數(shù)據(jù)訓(xùn)練，對(duì)于內(nèi)容較短的文本不敏感，且計(jì)算復(fù)雜度較高，所以提取效果有時(shí)并不理想。基于詞圖模型的關(guān)鍵詞抽取算法通過融合詞語特征信息達(dá)到優(yōu)化提取效果的目的，是目前應(yīng)用最廣的無監(jiān)督提取方法［18］。因此，融合詞語的特征信息［19-23］、優(yōu)化詞圖模型、提高抽取效果具有重要的研究?jī)r(jià)值。僅抽取關(guān)鍵詞不能完整且直觀地表達(dá)文本內(nèi)容，因而需要借助信息類型來完善。對(duì)于詞語的信息類型，如果文本有嚴(yán)格的記述特征，則可以通過分析記述結(jié)構(gòu)進(jìn)而抽取到相應(yīng)的屬性［24-27］，但大多數(shù)文本沒有良好的記述結(jié)構(gòu)，故采用此方法相對(duì)困難。因此，如何確定詞語的信息類型具有現(xiàn)實(shí)意義。

本文采用合理的公式抽取關(guān)鍵詞，通過改進(jìn)TextRank 算法、歸并聚類、簇過濾等，獲取到高品質(zhì)的詞語集合，進(jìn)而進(jìn)行信息類型的判定，將關(guān)鍵詞和信息類型結(jié)合，實(shí)現(xiàn)對(duì)林業(yè)文本的關(guān)鍵信息抽取。

1 實(shí)驗(yàn)方法

1.1 相關(guān)技術(shù)原理

1.1.1 詞語特征

關(guān)鍵詞抽取是指從文檔中獲取有代表性的詞語，用以反映文檔的主題和核心內(nèi)容。衡量詞語的重要性，不能從單一角度考慮。通常用詞頻特征、位置特征等［28-29］特征來衡量。文獻(xiàn)［30］已對(duì)基于詞頻-逆文檔頻率特征、長(zhǎng)度特征、詞語首次出現(xiàn)的位置特征以及詞跨度特征等4 個(gè)方面關(guān)鍵詞抽取公式進(jìn)行了相關(guān)研究，基于此，本文在該基礎(chǔ)上加入標(biāo)題特征，如果詞語出現(xiàn)在標(biāo)題中，標(biāo)題特征值記為1.5，反之記為1。詞語綜合權(quán)重值計(jì)算公式為

式中 Wtf——詞頻 l——詞長(zhǎng)

Widf——逆文檔頻率

s——詞語首次出現(xiàn)的位置

t——詞語最后一次出現(xiàn)的位置

n——文本詞匯總數(shù)

θ——標(biāo)題特征值

其中WtfWidf為詞頻-逆文檔頻率特征，lbl 為長(zhǎng)度特征，1+e-s為詞語首次出現(xiàn)的位置特征，1 +(t -s)/n為詞跨度特征。

1.1.2 相似性度量

將關(guān)鍵詞用Word2Vec 向量化表征，根據(jù)向量之間的相似度聚為若干簇。相似性度量方法有:歐氏距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、馬氏距離、余弦相似度、漢明距離等。本文通過設(shè)置閾值，計(jì)算向量間的余弦相似度對(duì)向量進(jìn)行歸并聚類，向量余弦相似度Wcos計(jì)算公式為

式中 X、Y——任意兩個(gè)不同的向量

‖X‖、‖Y‖——X、Y 向量的模

1.1.3 TextRank 算法

TextRank 算法是一種用于文本的基于圖的排序算法，通過對(duì)圖結(jié)構(gòu)的迭代計(jì)算實(shí)現(xiàn)詞語的重要性排序［31-33］。優(yōu)點(diǎn)是不需要事先對(duì)文檔進(jìn)行相關(guān)的學(xué)習(xí)訓(xùn)練?；驹砣缦?

設(shè)G(V，E)是由給定文本的詞匯所構(gòu)成的圖結(jié)構(gòu)，V 為圖節(jié)點(diǎn)集合，E 是圖邊集合。對(duì)于文本中的任一Vi，基于TextRank 算法得到權(quán)值Wi計(jì)算式為

式中 d——阻尼系數(shù)，取值為0 ～1

In(Vi)——指向節(jié)點(diǎn)Vi的所有節(jié)點(diǎn)的集合

Out(Vj)——節(jié)點(diǎn)Vj指向的所有節(jié)點(diǎn)的集合

wji、wjk——節(jié)點(diǎn)Vj到節(jié)點(diǎn)Vi、Vk的邊的權(quán)重

Wj——節(jié)點(diǎn)Vj的權(quán)值

但最初TextRank 算法在應(yīng)用時(shí)，忽略了詞語本身的特征信息，使各節(jié)點(diǎn)初始值均等，且節(jié)點(diǎn)權(quán)重均勻轉(zhuǎn)移。

因此，本文在原有TextRank 算法的基礎(chǔ)上進(jìn)行改進(jìn)，考慮詞語特征，將由關(guān)鍵詞抽取公式計(jì)算得到的綜合權(quán)值作為節(jié)點(diǎn)的初始值，并用詞語向量間的余弦相似度作為邊的初始值，構(gòu)建帶權(quán)無向圖結(jié)構(gòu)，此時(shí)對(duì)于文本中的任一Vi，權(quán)值Wi計(jì)算公式為

式中 join(Vi)——節(jié)點(diǎn)Vi相連的所有節(jié)點(diǎn)的集合

1.1.4 簇過濾

對(duì)于向量歸并聚類形成的簇來說，需要通過合理的品質(zhì)評(píng)價(jià)指標(biāo)對(duì)簇的品質(zhì)進(jìn)行過濾。本文從簇元素分布的均勻性、簇的規(guī)模、簇的普適性3 個(gè)角度考慮，設(shè)計(jì)簇品質(zhì)評(píng)價(jià)公式，通過對(duì)相關(guān)參數(shù)的調(diào)整，過濾得到品質(zhì)比較好的簇集合。

某核電廠取排水設(shè)計(jì)對(duì)漁業(yè)資源經(jīng)濟(jì)價(jià)值影響分析………………………………………………… 楊帆，傅小城（3-65）

(1)簇元素分布的均勻性(Balance)

簇中元素分布均勻性指標(biāo)B 的計(jì)算公式為

式中 Av——簇中節(jié)點(diǎn)元素權(quán)值的平均值，反映數(shù)據(jù)的集中性特征

St——簇中節(jié)點(diǎn)元素權(quán)值的標(biāo)準(zhǔn)差，反映數(shù)據(jù)的波動(dòng)性特征

標(biāo)準(zhǔn)差St越小，說明元素的權(quán)重分布越均勻，說明簇中有用的元素越多。標(biāo)準(zhǔn)差St相同時(shí)，需要借助平均值A(chǔ)v來判定。當(dāng)St/Av越小，元素分布越均勻，依據(jù)取倒數(shù)且分母不為零的原則設(shè)計(jì)公式，得出B 值越大，簇元素分布越均勻。

(2)簇的規(guī)模(Scale)

簇的規(guī)模S 指簇中所含元素的數(shù)量，計(jì)算公式為

式中 μ——簇中元素的個(gè)數(shù)

(3)簇的普適性(Universality)

普適性指標(biāo)U 是指簇中元素來源的文章數(shù)，計(jì)算公式為

式中 N0——簇中元素來源的文章數(shù)

簇中元素來源的文章數(shù)越大，即N0越大，U 越大，說明簇的普適性越好。

(4)簇品質(zhì)(Quality)評(píng)價(jià)公式

從簇元素分布的均勻性、簇的規(guī)模、簇的普適性3 個(gè)角度考慮簇的品質(zhì)Q，計(jì)算公式為

式中 λ1、λ2——參數(shù)

Q 由兩部分組成:簇的總體水平和簇的普適性，通過調(diào)節(jié)參數(shù)，權(quán)衡各指標(biāo)所占的權(quán)重。說明在不同規(guī)模下，均勻程度的增大對(duì)簇的品質(zhì)的提升是不同的;規(guī)模越大，提升越大。所以簇品質(zhì)對(duì)均勻程度的偏導(dǎo)為規(guī)模的單增函數(shù)，可得

式中函數(shù)f、g 均為單增函數(shù)。為方便計(jì)算，設(shè)

因此，簇的總體水平由簇元素分布的均勻性和簇的規(guī)模兩部分組成，可記為λ1BS。

1.2 提取流程

針對(duì)數(shù)量龐大的林業(yè)文本，采用“關(guān)鍵詞+信息類型”的表示方式，提出基于改進(jìn)TextRank 和簇過濾的林業(yè)文本關(guān)鍵信息抽取方法，通過合理的方式對(duì)林業(yè)文本進(jìn)行關(guān)鍵信息抽取。提取流程如圖1所示，具體步驟為:

(1)林業(yè)文本預(yù)處理，包括引入領(lǐng)域詞典對(duì)文本進(jìn)行分詞、引入停用詞表對(duì)文本進(jìn)行去停用詞等操作。

(2)依據(jù)關(guān)鍵詞抽取公式，抽取文本綜合權(quán)值排名前30 的詞語，部分結(jié)果如圖2 所示。

圖1 關(guān)鍵信息提取流程Fig.1 Key information extraction process

圖2 部分抽取結(jié)果Fig.2 Part of extraction results

(3)對(duì)抽取的關(guān)鍵詞用Word2Vec 向量化表征，并計(jì)算兩兩向量的余弦相似度。

(4)設(shè)置閾值，向量余弦相似度大于閾值的兩個(gè)詞之間連線，間距小于閾值的2 個(gè)詞之間不連線，以相似度為邊的權(quán)值，以步驟(2)計(jì)算出的權(quán)值作為節(jié)點(diǎn)的初始權(quán)值，進(jìn)而構(gòu)造圖模型，應(yīng)用TextRank算法，得到了綜合考慮詞與詞關(guān)系的關(guān)鍵詞最終權(quán)值。

(5)利用圖結(jié)構(gòu)中詞語的節(jié)點(diǎn)值和相應(yīng)的詞向量進(jìn)行加權(quán)求和，得到圖中心。計(jì)算兩兩圖中心的余弦相似度，設(shè)置閾值，余弦相似度大于閾值的圖進(jìn)行合并，歸并聚類得到初始簇。

(6)對(duì)簇中的節(jié)點(diǎn)值進(jìn)行標(biāo)準(zhǔn)化處理，依據(jù)設(shè)計(jì)好的簇品質(zhì)評(píng)價(jià)公式，對(duì)初始簇進(jìn)行品質(zhì)評(píng)價(jià)，設(shè)置閾值，進(jìn)行過濾操作。

(7)對(duì)過濾后的簇應(yīng)用TextRank 算法，經(jīng)過迭代收斂得到最終簇集合，對(duì)最終形成的簇集合進(jìn)行信息類型的判定。

(8)計(jì)算關(guān)鍵詞向量和各簇心之間的余弦相似度，通過比較，得到關(guān)鍵詞的信息類型。最終得到文本的關(guān)鍵信息:關(guān)鍵詞+信息類型。

2 實(shí)驗(yàn)及方法驗(yàn)證

2.1 實(shí)驗(yàn)環(huán)境

本文所提出的算法模型采用Python 編程實(shí)現(xiàn)，本實(shí)驗(yàn)所有的模型訓(xùn)練計(jì)算機(jī)環(huán)境主要參數(shù)為Intel Corei5-8250U CPU @ 1.6 GHz 1.80 GHz，內(nèi)存為8.00 GB。

2.2 實(shí)驗(yàn)數(shù)據(jù)

本文所采用的實(shí)驗(yàn)數(shù)據(jù)為與林業(yè)政策和新聞相關(guān)的文本，數(shù)據(jù)分別來自中國(guó)林業(yè)新聞網(wǎng)、林業(yè)信息網(wǎng)、林業(yè)產(chǎn)業(yè)網(wǎng)等林業(yè)相關(guān)網(wǎng)站，經(jīng)數(shù)據(jù)預(yù)處理后共2 000 篇，其中400 篇文本進(jìn)行了關(guān)鍵詞人工標(biāo)注。

2.3 評(píng)價(jià)指標(biāo)

2.3.1 聚類評(píng)價(jià)指標(biāo)

所采用的評(píng)價(jià)指標(biāo)有3 個(gè):緊密度、間隔度、聚類綜合評(píng)價(jià)指標(biāo)。

(1)緊密度(Compactness，CP)

每一個(gè)簇中各元素到簇心的平均距離越小，說明聚類效果越好。實(shí)驗(yàn)選用向量的余弦距離，因此CP 越大，說明聚類效果越好。

其中

式中 Cp——緊密度

xi——簇中第i 個(gè)關(guān)鍵詞向量

wi——第i 簇的簇心向量

Ωi——第i 簇的關(guān)鍵詞集合

k——簇的個(gè)數(shù)

(2)間隔度(Separation，SP)

各簇中心兩兩之間的平均距離越遠(yuǎn)說明簇間聚類效果越好。實(shí)驗(yàn)選用向量的余弦距離，因此間隔度越小，說明聚類效果越好。

式中 Sp——間隔度

wj——第j 族的簇心向量

(3)聚類綜合評(píng)價(jià)指標(biāo)(F1-Measure，F(xiàn)1)

式中 N1——簇元素為1 的數(shù)量

N——簇的數(shù)量

2.3.2 關(guān)鍵詞抽取效果評(píng)價(jià)指標(biāo)

第1 類評(píng)價(jià)指標(biāo)有3 個(gè):準(zhǔn)確率(Precision，P)、召回率(Recall，R)和綜合評(píng)價(jià)指標(biāo)(F-Measure，F(xiàn))，公式為

式中 X——正確抽取到的關(guān)鍵詞數(shù)

Y——錯(cuò)誤抽取到的關(guān)鍵詞數(shù)

Z——屬于關(guān)鍵詞但未被抽取到的詞數(shù)

第2 類評(píng)價(jià)指標(biāo)為針對(duì)有序的關(guān)鍵詞抽取結(jié)果的評(píng)價(jià)指標(biāo)，包括平均倒數(shù)等級(jí)(Mean reciprocal rank，MRR)和二元偏好度量(Binary preference measure，Bpref)。其中，MRR 用來度量每個(gè)文檔第1個(gè)被準(zhǔn)確提取的關(guān)鍵詞的排名情況，而Bpref 則用來度量提取結(jié)果中錯(cuò)誤提取的詞語的排名情況，具體的計(jì)算公式為

式中 D——所有文檔的集合

rd——第1 個(gè)正確提取結(jié)果的排序

Q1——正確的關(guān)鍵詞的集合

|F0|——排列在正確提取詞r∈Q1之前提取的錯(cuò)誤詞的數(shù)目

|E|——所有提取詞的數(shù)目

2.4 實(shí)驗(yàn)結(jié)果及分析

依據(jù)兩兩向量間的余弦相似度，對(duì)單個(gè)文本構(gòu)建圖模型時(shí)，需要設(shè)置合理的閾值。實(shí)驗(yàn)結(jié)果如表1 所示。此時(shí)部分指標(biāo)隨閾值變化趨勢(shì)如圖3 所示。

表1 單個(gè)文本構(gòu)建圖模型閾值參數(shù)Tab.1 Parameters of single text built graph model

圖3 各指標(biāo)變化趨勢(shì)(單個(gè)文本)Fig.3 Trend of each index (single text)

由表1 及圖3 可以看出，當(dāng)閾值大于等于0.4時(shí)，CP 和SP 逐步趨于穩(wěn)定，且當(dāng)閾值等于0.4，F(xiàn)1最大，說明聚類效果最好。因此，單個(gè)文本構(gòu)建圖模型閾值參數(shù)設(shè)置為0.4。

單個(gè)文本形成穩(wěn)定的圖結(jié)構(gòu)后，要對(duì)所有的圖進(jìn)行歸并聚類形成初始簇，需要設(shè)置合理的閾值。實(shí)驗(yàn)結(jié)果如表2 所示。此時(shí)部分指標(biāo)隨閾值變化趨勢(shì)如圖4 所示。

由表2 及圖4 可以看出，當(dāng)閾值在0.5 ～0.7 之間時(shí)，CP 趨于穩(wěn)定;雖然SP 呈遞增趨勢(shì)，但要綜合CP 來設(shè)定閾值參數(shù)。閾值為0.5 時(shí)，CP 為0.929 0，SP 為0.050 2，此時(shí)簇的數(shù)量N 為1 194，F(xiàn)1值最大，為0.848 0。因此，歸并聚類時(shí)閾值參數(shù)設(shè)置為0.5。

對(duì)簇進(jìn)行過濾時(shí)，要進(jìn)行品質(zhì)評(píng)價(jià)。此時(shí)需要討論參數(shù)λ1和λ2，將λ1在0.1 ～0.9 的取值分別記為序號(hào)1 ～9，實(shí)驗(yàn)結(jié)果如表3 所示。

表2 圖結(jié)構(gòu)歸并聚類閾值參數(shù)Tab.2 Parameters of merged cluster of graph structure

由表3 可以看出:當(dāng)λ1為0.7，λ2為0.3 時(shí)，CP為0.968 0，SP 為0.057 2，此時(shí)簇的數(shù)量N 為234，說明能對(duì)簇進(jìn)行有效過濾，此時(shí)F1為0.887 1，綜合評(píng)價(jià)最好。因此，歸并聚類時(shí)閾值參數(shù)λ1、λ2分別設(shè)置為0.7、0.3。

圖4 各指標(biāo)變化趨勢(shì)Fig.4 Trend of each index

表3 品質(zhì)評(píng)價(jià)公式參數(shù)Tab.3 Parameters of quality evaluation

為了驗(yàn)證本文過濾方法的有效性，將過濾前的狀態(tài)記為狀態(tài)1，采用本文過濾方法過濾后的狀態(tài)記為狀態(tài)2，并與文獻(xiàn)［34］提出的基于聚類顯著程度的定量過濾指標(biāo)對(duì)簇進(jìn)行過濾的方法作對(duì)比，并記為狀態(tài)3，對(duì)比實(shí)驗(yàn)采用上述評(píng)價(jià)指標(biāo)，結(jié)果如表4 所示，結(jié)果說明簇品質(zhì)公式能有效對(duì)簇的品質(zhì)進(jìn)行評(píng)價(jià)，本文過濾方法是行之有效的。同時(shí)對(duì)最終簇的元素來源文章數(shù)進(jìn)行了統(tǒng)計(jì)，來源文章數(shù)規(guī)模最大為21，最小為4。

表4 簇?cái)?shù)量統(tǒng)計(jì)Tab.4 Numbers of clusters

對(duì)簇進(jìn)行信息類型標(biāo)注，部分標(biāo)注結(jié)果如表5所示。

表5 部分標(biāo)注結(jié)果Tab.5 Part of results

為了進(jìn)一步驗(yàn)證本文方法在抽取關(guān)鍵詞方面的有效性，將TF-IDF、TextRank 以及文獻(xiàn)［10 - 11，35 -36］中相應(yīng)的關(guān)鍵詞抽取方法分別作為對(duì)比實(shí)驗(yàn)。將上述模型按提及次序分別記為模型1 ～6，將本文方法記為模型7。實(shí)驗(yàn)數(shù)據(jù)為已進(jìn)行關(guān)鍵詞標(biāo)注的400 篇林業(yè)文本。實(shí)驗(yàn)結(jié)果如表6 所示。

通過實(shí)驗(yàn)結(jié)果可以看出，本文所提方法在MRR、Bpref、準(zhǔn)確率和綜合評(píng)價(jià)指標(biāo)上均取得了最好的效果，在召回率方面取得了較好的效果，說明本文所提關(guān)鍵詞抽取公式具有很好的關(guān)鍵詞抽取能力。

表6 對(duì)比實(shí)驗(yàn)結(jié)果Tab.6 Results of comparative experiments

2.5 測(cè)試

2.5.1 測(cè)試流程

為了進(jìn)一步驗(yàn)證本文所提出的關(guān)鍵信息抽取方法的有效性，開展了相關(guān)的測(cè)試實(shí)驗(yàn)工作，測(cè)試流程如圖5 所示。

圖5 測(cè)試流程圖Fig.5 Test process

具體步驟如下:①文本預(yù)處理，對(duì)文本進(jìn)行分詞、去停用詞等操作。②依據(jù)關(guān)鍵詞抽取公式，抽取權(quán)重排名前30 的詞語。③對(duì)抽取的關(guān)鍵詞進(jìn)行向量化表征。④通過計(jì)算比較關(guān)鍵詞向量和各簇心之間的距離，得到關(guān)鍵詞、最相似簇、最大相似度的三元組，根據(jù)最大相似度對(duì)30 個(gè)三元組進(jìn)行降序排序，取前10 個(gè)。以最相似簇的標(biāo)注類型作為詞的信息類型，最終得到文本的關(guān)鍵信息:關(guān)鍵詞+信息類型。

2.5.2 測(cè)試實(shí)例

選取一篇新的與林業(yè)政策新聞相關(guān)的文章，文章的部分內(nèi)容如圖6 所示。

2.5.3 測(cè)試結(jié)果抽取最大相似度排名前10 的詞語，結(jié)果如表7所示。

圖6 測(cè)試文章的部分內(nèi)容Fig.6 Part of test article

表7 測(cè)試結(jié)果Tab.7 Test results

結(jié)果表明本文所提方法能從“關(guān)鍵詞+信息類型”兩部分表示文本關(guān)鍵信息，內(nèi)容表述基本清晰，且具有很好的代表性和可讀性。

3 結(jié)束語

為了使抽取的關(guān)鍵詞綜合特征明顯，通過綜合考慮詞長(zhǎng)、詞跨度、標(biāo)題等特征，將計(jì)算的綜合權(quán)值作為詞語特征值，通過構(gòu)建融合詞語特征、引入邊權(quán)重的圖模型對(duì)TextRank 算法進(jìn)行改進(jìn)。經(jīng)迭代收斂、歸并聚類得到穩(wěn)定的簇集合，對(duì)其過濾得到高品質(zhì)的詞語信息類型集合。實(shí)驗(yàn)表明，本文方法相對(duì)于其他關(guān)鍵詞抽取方法具有更高的關(guān)鍵詞抽取能力，最終形成的信息類型集合在緊密性、間隔性、綜合評(píng)價(jià)指標(biāo)上均表現(xiàn)良好。隨機(jī)針對(duì)一篇林業(yè)政策新聞?lì)惖奈谋具M(jìn)行測(cè)試，結(jié)果表明，從“關(guān)鍵詞+信息類型”兩部分考慮，本文方法能有效提取出該文本的關(guān)鍵信息，說明本文提出的基于改進(jìn)TextRank和簇過濾的林業(yè)文本關(guān)鍵信息抽取方法是有效的。