亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word2Vec及TextRank算法的長(zhǎng)文檔摘要自動(dòng)生成研究

        2023-06-25 05:29:28朱玉婷劉樂(lè)辛?xí)詷?lè)陳瓏慧康亮河
        現(xiàn)代信息科技 2023年4期
        關(guān)鍵詞:提取

        朱玉婷 劉樂(lè) 辛?xí)詷?lè) 陳瓏慧 康亮河

        基于Word2Vec及TextRank算法的長(zhǎng)文檔摘要

        自動(dòng)生成研究

        朱玉婷,劉樂(lè),辛?xí)詷?lè),陳瓏慧,康亮河

        (甘肅農(nóng)業(yè)大學(xué),甘肅 蘭州? 730070)

        摘? 要:近年來(lái),如何從大量信息中提取關(guān)鍵信息已成為一個(gè)急需解決的問(wèn)題。針對(duì)中文專利長(zhǎng)文檔,提出一種結(jié)合Word2Vec和TextRank的專利生成算法。首先利用Python Jieba技術(shù)對(duì)中文專利文檔進(jìn)行分詞,利用停用詞典去除無(wú)意義的詞;其次利用Word2Vec算法進(jìn)行特征提取,并利用WordCloud對(duì)提取的關(guān)鍵詞進(jìn)行可視化展示;最后利用TextRank算法計(jì)算語(yǔ)句間的相似度,生成摘要候選句,根據(jù)候選句的權(quán)重生成該專利文檔的摘要信息。實(shí)驗(yàn)表明,采用Word2Vec和TextRank生成的專利摘要質(zhì)量高,概括性也強(qiáng)。

        關(guān)鍵詞:Jieba分詞;關(guān)鍵詞提??;Word2Vec算法;TextRank算法

        中圖分類號(hào):TP391.1? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)04-0036-04

        Research on Abstract Automatic Generation of Long Document Based on the Word2Vec + TextRank Algorithm

        ZHU Yuting, LIU Le, XIN Xiaole, CHEN Longhui, KANG Lianghe

        (Gansu Agricultural University, Lanzhou? 730070, China)

        Abstract: In recent years, how to extract critical information from large amounts of information has become a problem which needs to be solved urgently. For Chinese patent long documents, a patent generation algorithm combining Word2Vec and TextRank is proposed. Firstly, Python Jieba technology is used to segment words in Chinese patent documents, and meaningless words are removed by using the stop dictionary. Secondly, the Word2Vec algorithm is used for feature extraction, and the extracted keywords are visually displayed by WordCloud. Finally, the TextRank algorithm is used to calculate the similarity between sentences, generate abstract candidate sentences, and generate abstract information of the patent documents according to the weight of candidate sentences. Experiments show that patent abstracts generated by Word2Vec and TextRank are of high quality and have strong generalization.

        Keywords: Jieba word segmentation; keyword extraction; Word2Vec algorithm; TextRank algorithm

        0? 引? 言

        21世紀(jì),由于時(shí)代的進(jìn)步與信息科技的飛速發(fā)展,大數(shù)據(jù)時(shí)代也隨之來(lái)臨,傳統(tǒng)的手工編織文摘已經(jīng)落后,人們獲取信息的便捷度不斷提高,信息量不斷增加,使文本信息出現(xiàn)爆炸式增長(zhǎng)。如何從大量信息中提取出重要信息還有待解決。在大量數(shù)據(jù)中提取出具有價(jià)值的信息已經(jīng)成為一個(gè)重要的研究方向。自動(dòng)文摘是全面反映文本信息主要內(nèi)容的短文本,也具有簡(jiǎn)潔連貫的特點(diǎn)。自動(dòng)摘要技術(shù)是計(jì)算機(jī)通過(guò)寫一些算法和輸入的文章自動(dòng)生成摘要的技術(shù)[1],到目前為止,國(guó)外做的一些自動(dòng)文本摘要技術(shù)已經(jīng)取得了成果,英文文本的摘要技術(shù)也已經(jīng)被提出。而中文文本提取摘要的技術(shù)上依舊不夠成熟,在提取結(jié)果上依然有很大的進(jìn)步空間,而國(guó)內(nèi)的研究目前仍處于初級(jí)階段,因此,根據(jù)中文的特點(diǎn),制作設(shè)計(jì)出一個(gè)中文文本的自動(dòng)摘要系統(tǒng)顯得尤為重要[2]。

        自動(dòng)文本摘要興起于20世紀(jì)50年代,在1958年IBM公司的Luhn[3]第一次進(jìn)行了自動(dòng)文本摘要的研究,宣布了這項(xiàng)技術(shù)的產(chǎn)生。劉志明[4]等利用LDA主題模型結(jié)合TextRank自動(dòng)摘要方法,解決了不同文檔結(jié)構(gòu)及內(nèi)容特征等問(wèn)題對(duì)摘要結(jié)果的影響,實(shí)驗(yàn)表明,該方法能更為高效的獲取新聞文本摘要結(jié)果。Salton[5]提出了著名的TF-IDF方法,詞語(yǔ)的重要程度也被這個(gè)方法精確科學(xué)的評(píng)估到了,所以才能更加精確地抽取主要句子生成摘要。HU[6]等人在K-means算法的基礎(chǔ)上進(jìn)行了摘要提取。相較國(guó)外,國(guó)內(nèi)從事自動(dòng)文本摘要的研究相對(duì)較晚,王永成[7]等人在20世紀(jì)80年代開發(fā)了用于中文文獻(xiàn)的自動(dòng)文本摘要系統(tǒng)。國(guó)外學(xué)者Kchaou[8]等根據(jù)文本的相似度計(jì)算,克服了現(xiàn)有的CIA方法一方面集中在一個(gè)時(shí)間段產(chǎn)生的模型,另一方面忽視了整個(gè)開發(fā)階段產(chǎn)生的各種各類的模型之間的語(yǔ)義相互依賴關(guān)系的問(wèn)題。Li[9]等人提取關(guān)鍵詞用到了TextRank算法,最后通過(guò)神經(jīng)網(wǎng)絡(luò)得到了關(guān)鍵詞,并將其與點(diǎn)生成網(wǎng)絡(luò)進(jìn)行結(jié)合,來(lái)指導(dǎo)摘要生成任務(wù)的進(jìn)。程園[10]等人一起制作了一個(gè)特征加權(quán)函數(shù),在文本的訓(xùn)練中用到了數(shù)學(xué)回歸模型,使一些冗余句子的信息被去除,進(jìn)而生成關(guān)鍵詞得到文本摘要。徐飛[11]等人利用文本結(jié)構(gòu)分析等技術(shù)方法實(shí)現(xiàn)了中文自動(dòng)摘要系統(tǒng)。

        文章主要研究的是如何從一篇篇幅較長(zhǎng)的專利性文本中提取出其中的關(guān)鍵詞,使其輸出文本摘要。在用一些主要的編碼生成摘要時(shí),會(huì)有目標(biāo)算法與評(píng)價(jià)指標(biāo)不一致以及結(jié)果與預(yù)測(cè)結(jié)果相差較大的問(wèn)題出現(xiàn)[5],對(duì)于存在的問(wèn)題,本文根據(jù)其特點(diǎn),在進(jìn)行文本預(yù)處理、分詞以及去除停用詞一系列操作之后重點(diǎn)使用Word2Vec和TextRank等算法計(jì)算出詞頻,進(jìn)行關(guān)鍵字抽取,詞云展示,生成摘要等幾個(gè)妙計(jì),獲取主題的文本摘要。實(shí)驗(yàn)證明,本文提出的方法能夠獲得較好的性能提升。

        1? 主要算法介紹

        1.1? 分詞和去停用詞

        中文分詞作為自然語(yǔ)言處理的第一步,利用計(jì)算機(jī)將待處理的文字串進(jìn)行分詞、過(guò)濾處理,輸出中文單詞、數(shù)字及特殊字符等一系列分割好的字符串。本文采用Python 3.0自帶的中文Jieba分詞,基于前綴詞典進(jìn)行詞圖掃描,通過(guò)精準(zhǔn)模式(jieba.lcut(txt,cut_all=False))將句子最精確地切開,適合本文的專利長(zhǎng)文檔。

        1.2? 去停用詞

        停用詞最早發(fā)現(xiàn)于信息檢索,Luhn在檢索研究中發(fā)現(xiàn)有一些詞出現(xiàn)的概率非常高,但檢索效果確很差[12]。停用詞是除了文本中可以表達(dá)具體含義的實(shí)詞以外,用于填充結(jié)構(gòu)的虛詞以及一些其他沒(méi)有實(shí)際意義的詞。這些詞很明顯就不是最后要找的關(guān)鍵詞,而且還會(huì)對(duì)下一步的特征提取產(chǎn)生不好的影響[13],所以要根據(jù)停用詞典去除高頻且毫無(wú)意義的詞語(yǔ)。

        1.3? Word2Vec算法

        Word2Vec是一種產(chǎn)生詞向量的語(yǔ)言模式。將所有的詞向量化,以便更好地衡量詞與詞之間的關(guān)系,而Word2Vec作為一種編碼方式,將每個(gè)詞編碼成向量用來(lái)體現(xiàn)這些詞的關(guān)系。

        Word2Vec主要具有兩種模型,一種是CBOW模型(通過(guò)上下文窗口詞向量預(yù)測(cè)中心詞向量)與Skip-Gram模型(根據(jù)中心詞預(yù)測(cè)窗口詞向量),其主要算法流程如圖1所示。

        主要步驟:

        (1)讀取源文件(此時(shí)的源文件是已經(jīng)經(jīng)過(guò)分詞和去停用詞的文件);

        (2)使用Python的第三方庫(kù),最后可以得到有關(guān)專利文本的n個(gè)候選關(guān)鍵詞,即D={t1, t2…, t3};

        (3)遍歷這些候選關(guān)鍵詞,從生成的詞向量文件中抽取候選關(guān)鍵詞的詞向量表示,即WV={V1, V2,…, Vm};

        (4)計(jì)算詞向量距離并排序,公式:

        (1)

        (5)把候選關(guān)鍵詞排名在前TopN的詞匯作為文本的關(guān)鍵詞。

        1.4? TextRank算法

        TextRank算法是在PageRank算法的基礎(chǔ)上提出來(lái)的,且是一種抽取式無(wú)監(jiān)督的摘要方法,把對(duì)文本的分析轉(zhuǎn)化成一個(gè)網(wǎng)絡(luò)圖模式,這樣就可以通過(guò)分析網(wǎng)絡(luò)圖中每個(gè)節(jié)點(diǎn)的權(quán)重,確定節(jié)點(diǎn)的重要性。把文本中每一個(gè)句子都看作一個(gè)節(jié)點(diǎn),如果兩個(gè)句子之間存在相似性,則這兩個(gè)句子之間有一條無(wú)向有權(quán)邊[14]。

        句子相似度計(jì)算:

        (2)

        通過(guò)句子的余弦相似度方法計(jì)算可得到句子間的相似度矩陣Sn×n:

        (3)

        其計(jì)算公式為:

        (4)

        TextRank算法相當(dāng)于一種排序算法,可以將專利文本分割成若干個(gè)單元,通過(guò)句子節(jié)點(diǎn)構(gòu)建連接圖[15],利用相似度,通過(guò)循環(huán)迭代計(jì)算句子的TextRank值。TextRank算法流程如圖2所示。

        為分割后的每個(gè)句子找到向量表示,計(jì)算出句子之間的相似度之后存放在矩陣中,然后根據(jù)相似矩陣以及網(wǎng)絡(luò)圖計(jì)算并進(jìn)行排序,最終,排名最高的n個(gè)句子作為最后的摘要結(jié)果。

        2? 實(shí)驗(yàn)結(jié)果及討論

        文章的設(shè)計(jì)目的是從一篇中文專利文檔中抽取關(guān)鍵詞,以農(nóng)業(yè)大棚用薄膜為研究對(duì)象,對(duì)文檔內(nèi)容進(jìn)行大致的分析。其中涉及四個(gè)步驟,首先對(duì)長(zhǎng)文檔進(jìn)行分詞、去停用詞,其次利用Word2Vec算法提取反映文章主要內(nèi)容的關(guān)鍵詞,最后通過(guò)TextRank算法自動(dòng)生成摘要,其具體的流程如圖3所示。

        2.1? 分詞和去停用詞

        使用Jieba庫(kù),進(jìn)行分詞拆分,先去掉非漢字字符,讀入停用詞表的文件,對(duì)每個(gè)詞進(jìn)行檢索,去除對(duì)文本語(yǔ)義分詞無(wú)意義的標(biāo)點(diǎn)符號(hào),對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,部分結(jié)果如表1所示。

        2.2? Word2Vec關(guān)鍵字的提取

        通過(guò)Word2Vec進(jìn)行提取關(guān)鍵詞,使讀者一眼看出文章中的高頻詞,快速捕獲文本信息,節(jié)約大量時(shí)間,文章共生成了254個(gè)關(guān)鍵詞,通過(guò)Python中詞云庫(kù)WordCloud根據(jù)254個(gè)關(guān)鍵詞的重要程度進(jìn)行可視化展示,其最終生成的詞云如圖4所示。

        從圖4的展示結(jié)構(gòu)中可以發(fā)現(xiàn),本文共提取的254個(gè)關(guān)鍵詞中,按照重要程度依次是監(jiān)測(cè)、裝置、相機(jī)、旋轉(zhuǎn)、調(diào)節(jié)、機(jī)構(gòu)、處理器、光源等關(guān)鍵詞,由此可以推斷這篇長(zhǎng)文檔是一篇關(guān)于農(nóng)業(yè)大棚薄膜材質(zhì)的監(jiān)測(cè)裝置。

        2.3? TextRank生成摘要

        通過(guò)Word2Vec算法對(duì)在原文中提取的關(guān)鍵字進(jìn)行Embedding處理,TextRank算法根據(jù)Embedding值,用WordAVG表示句向量,然后根據(jù)余弦相似度計(jì)算形成一個(gè)113×113維度的相似度矩陣,根據(jù)TextRank算法提取113個(gè)摘要句,文章選取排名最前的10個(gè)摘要句構(gòu)成該專利的摘要,其結(jié)果如表2所示。

        從以上結(jié)果可以發(fā)現(xiàn),通過(guò)TextRank算法自動(dòng)生成的摘要,與該專利的原文摘要相比,篇幅較少,描述的文字也不盡相同,但較全面地概括了本文研究的目的、內(nèi)容及意義,為其他專利長(zhǎng)文檔的自動(dòng)生成提供了一定的借鑒及指導(dǎo)意義。

        3? 結(jié)? 論

        主要以農(nóng)業(yè)大棚用薄膜為研究對(duì)象,以Word2Vec和TextRank算法生成摘要為例,主要從分詞,去停用詞,關(guān)鍵詞提取,生成摘要四個(gè)方面對(duì)長(zhǎng)文本進(jìn)行研究,實(shí)現(xiàn)自動(dòng)文本摘要提取。首先對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,在用Jieba庫(kù)對(duì)專利文本進(jìn)行分詞,然后檢索停用詞表去除無(wú)用的停用詞,然后通過(guò)Word2Vec進(jìn)行提取關(guān)鍵詞,快速捕獲文本信息,用wordcloud對(duì)提取的關(guān)鍵詞進(jìn)行展示,最后通過(guò)TextRank算法生成摘要。實(shí)驗(yàn)結(jié)果顯示,相對(duì)于傳統(tǒng)方法而言,本文提出的基于Word2Vec和TextRank算法的自動(dòng)文本摘要不易偏離主題,且適應(yīng)范圍廣,速度快,準(zhǔn)確度高,符合實(shí)驗(yàn)預(yù)期。

        參考文獻(xiàn):

        [1] 趙明輝,張玲玲,顧基發(fā).基于網(wǎng)絡(luò)評(píng)論文本挖掘的技術(shù)預(yù)見方法研究 [J].科技管理研究,2022,42(16):176-181.

        [2] 熊謙,唐文哲.基于文本挖掘的水利工程建設(shè)管理信息化專利分析 [J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2023,63(2):223-232.

        [3] LUHN H P. The Automatic Creation of Literature Abstracts [J].IBM Journal of Research and Development,1958,2(2):159-165.

        [4] 劉志明,于波,歐陽(yáng)純萍,等.基于主題的SE-TextRank情感摘要方法 [J].情報(bào)工程,2017,3(3):97-104.

        [5] SALTON G,YU C T. On the Construction of Effective Vocabularies for Information Retrieval [J].ACM SIGPLAN Notices,1975,10(1):48-60.

        [6] HU P,HE T T,JI D H,et al. A Study of Chinese Text Summarization Using AdaptiveClustering of Paragraphs [C]//the Fourth International Conference on Computer and Information Technology.Wuhan:IEEE,2004:1159-1164.

        [7] 王永成,王曉峰.國(guó)家信息基礎(chǔ)結(jié)構(gòu)與全息檢索 [J].電子出版,1997(4):57-59.

        [8] KCHAOU D,BOUASSIDA N,BEN-ABDALLAH H. UML Models Change Impact Analysis Using a Text Similarity Technique [J].IET Software,2017,11(1):27-37.

        [9] LI W,XIAO X Y,LYU Y J,et al. Improving Neural Abstractive Document Summarization with Structural Regularization [C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels:Association for Computational Linguistics,2018:4078-4087.

        [10] 程園,吾守爾·斯拉木,買買提依明·哈斯木.基于綜合的句子特征的文本自動(dòng)摘要 [J].計(jì)算機(jī)科學(xué),2015,42(4):226-229.

        [11] 徐飛,彭佳佳,劉軍,楊博.基于多特征融合的TextRank新聞自動(dòng)摘要模型 [J/OL].計(jì)算機(jī)系統(tǒng)應(yīng)用:1-8[2023-01-29].https://www.cnki.net/KCMS/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=XTYY20221114019&v=MTkxNjlBemxxMkEwZkxUN1I3cWRaT1p1RkNEa1c3dk5KRm89UFRuU2Q3RzRITlBOcm81QlpPb0dZd2s3dkJBUzZqaDRU.

        [12] 利潤(rùn)霖,龍昌敏,李雯蕓,等.基于TextRank算法的項(xiàng)目標(biāo)簽智能化生成技術(shù)研究 [J].信息技術(shù),2022(8):77-82.

        [13] 李秀秀,陳海山.基于機(jī)器學(xué)習(xí)的新聞文本分類研究 [J].電腦編程技巧與維護(hù),2021(12):132-135.

        [14] 丁敬達(dá),陳一帆,劉超,等.基于共詞和Word2Vec加權(quán)向量的文獻(xiàn)-主題語(yǔ)義匹配分析方法 [J].圖書情報(bào)工作,2022,66(12):108-116.

        [15] 羅婉麗,張磊.結(jié)合拓?fù)鋭?shì)與TextRank算法的關(guān)鍵詞提取方法 [J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(1):334-338.

        作者簡(jiǎn)介:朱玉婷(2001—),女,漢族,甘肅平?jīng)鋈?,本科在讀,研究方向:數(shù)據(jù)挖掘;劉樂(lè)(2004—),女,漢族,甘肅慶陽(yáng)人,本科在讀,研究方向:圖像處理;辛?xí)詷?lè)(2000—),女,漢族,甘肅臨夏人,本科在讀,研究方向:機(jī)器視覺(jué);陳瓏慧(2000—),女,漢族,甘肅慶陽(yáng)人,本科在讀,研究方向:數(shù)據(jù)應(yīng)用;康亮河(1987—),女,漢族,甘肅會(huì)寧人,助教,碩士,研究方向:人工智能算法研究。

        收稿日期:2022-10-13

        基金項(xiàng)目:甘肅省農(nóng)業(yè)大學(xué)盛彤笙科技創(chuàng)新基金(GSAU-STS-2021-15);國(guó)家自然基金(32060437);甘肅農(nóng)業(yè)大學(xué)省級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(202216018)

        猜你喜歡
        提取
        射擊痕跡的尋找和提取
        法制博覽(2016年12期)2016-12-28 18:50:33
        植物基因組DNA提取
        濱州市沾化冬棗核中活性多糖的提取
        綠色科技(2016年20期)2016-12-27 18:10:47
        茶色素生物活性及制備技術(shù)研究進(jìn)展
        木犀草素提取工藝的研究概況
        現(xiàn)場(chǎng)勘查中物證的提取及應(yīng)用
        淺談涂料墻面上汗液手印的顯現(xiàn)和提取
        土壤樣品中農(nóng)藥殘留前處理方法的研究進(jìn)展
        中學(xué)生開展DNA“細(xì)”提取的實(shí)踐初探
        淺析城市老街巷景觀本土設(shè)計(jì)元素的提取與置換
        亚洲毛片av一区二区三区| 亚洲国产成人片在线观看| 亚洲娇小与黑人巨大交| 末发育娇小性色xxxxx视频| 久久久久久国产精品免费网站| 国产网友自拍亚洲av| 日本韩国一区二区高清| 亚洲av久播在线一区二区| 国产成人亚洲综合无码品善网| 国产又滑又嫩又白| 在线观看国产内射视频| 亚洲av性色精品国产| 人妻久久一区二区三区| 领导边摸边吃奶边做爽在线观看 | 国产乱淫h侵犯在线观看| 精品国产粉嫩内射白浆内射双马尾| 少妇人妻大乳在线视频不卡| 欧美最猛黑人xxxxx猛交| 91精品在线免费| 人妻体体内射精一区中文字幕| 久久精品亚洲熟女av蜜謦| 久久久国产乱子伦精品作者| 国产白嫩美女在线观看| 一区二区三区国产97| 美女被内射很爽的视频网站| 无套内射在线无码播放| 亚洲综合国产一区二区三区| 在线观看网址你懂的| 亚洲一区二区三区综合网| 精品一区二区在线观看免费视频| 国产二区交换配乱婬| 国产精品久久久久国产a级| 日本熟妇中文字幕三级| 国产精品美女主播一区二区| 琪琪色原网站在线观看| 边做边流奶水的人妻| 精品在免费线中文字幕久久| 国产av自拍在线观看| 国产精品无码翘臀在线观看 | 日本免费三片在线播放| 亚洲一区二区三区高清在线|