亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TF-IDF和TextRank結(jié)合的中文文本關(guān)鍵詞提取方法

        2023-08-20 03:22:47蘭曉芳劉卓許志豪肖毅
        軟件工程 2023年8期
        關(guān)鍵詞:分詞文檔準(zhǔn)確性

        蘭曉芳 劉卓 許志豪 肖毅

        摘 要:利用文本挖掘技術(shù)進(jìn)行體育熱點(diǎn)分析,可以為體育領(lǐng)域的發(fā)展提供更多有用的信息。文中提出了一種基于TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)和TextRank(文本排序)的中文文本關(guān)鍵詞提取方法,該方法首先采用分詞、去除停用詞等對(duì)文本進(jìn)行預(yù)處理;其次使用TF-IDF算法計(jì)算每個(gè)詞的重要性并進(jìn)行歸一化處理,同時(shí)使用TextRank算法權(quán)衡單詞之間的關(guān)系并計(jì)算每個(gè)單詞的得分以進(jìn)行歸一化處理;最后將TF-IDF值和TextRank得分進(jìn)行加權(quán)和得到每個(gè)詞的綜合權(quán)重值,最終獲得權(quán)重值最高的N 個(gè)關(guān)鍵詞。應(yīng)用TF-IDF和TextRank結(jié)合的方法在F1 值上選擇5個(gè)關(guān)鍵詞時(shí)取得了更好的結(jié)果,相較于只使用TF-IDF方法或TextRank方法,其關(guān)鍵詞提取準(zhǔn)確率分別提高約40%和32%。該方法有效提高了關(guān)鍵詞提取的準(zhǔn)確性和提取效率。

        關(guān)鍵詞:TF-IDF;TextRank;體育新聞;關(guān)鍵詞提取

        中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A

        0 引言(Introduction)

        隨著互聯(lián)網(wǎng)的發(fā)展,人們可以方便地在互聯(lián)網(wǎng)上獲取各種類型的文本數(shù)據(jù),而提取中文文本新聞的關(guān)鍵字有重大意義,新聞的關(guān)鍵字可以作為新聞標(biāo)題和摘要的一部分出現(xiàn),吸引更多讀者點(diǎn)擊閱讀,進(jìn)而促進(jìn)新聞的傳播和推廣;還可以使讀者更快速地了解文章的主要內(nèi)容和重點(diǎn),提高閱讀效率。同時(shí),它可以作為搜索引擎的關(guān)鍵詞,提高搜索結(jié)果的精準(zhǔn)度和效果[1]。此外,通過(guò)對(duì)新聞文本的關(guān)鍵字進(jìn)行提取和分析,可以得到讀者關(guān)注的相關(guān)信息,提高廣告投放的精準(zhǔn)性和效果[2]。近年來(lái),基于TF-IDF和TextRank的關(guān)鍵詞提取算法在中文文本領(lǐng)域得到了廣泛應(yīng)用。然而,由于中文語(yǔ)言的復(fù)雜性,傳統(tǒng)的TF-IDF和TextRank算法在中文文本的關(guān)鍵詞提取中存在一定的局限性[3]。因此本文提出了一種基于TF-IDF和TextRank的中文文本的體育新聞關(guān)鍵詞提取方法,可以提高關(guān)鍵詞提取的準(zhǔn)確性和覆蓋率。

        1 相關(guān)工作(Related work)

        關(guān)鍵詞提取是一個(gè)廣泛的研究領(lǐng)域,已經(jīng)有許多算法被提出。中文文本的關(guān)鍵詞提取與英文文本不同,主要因?yàn)橹形脑~匯具有復(fù)雜性和多義性。因此,中文文本的關(guān)鍵詞提取需要考慮詞匯的語(yǔ)義、詞頻、文本結(jié)構(gòu)等多方面因素。其中,基于頻率的TF-IDF算法是最常用的一種方法,它通過(guò)計(jì)算詞頻和文檔頻率衡量詞語(yǔ)的重要性。TextRank算法是一種基于圖的排序算法,它通過(guò)對(duì)文本中詞語(yǔ)之間的關(guān)系進(jìn)行建模,計(jì)算每個(gè)詞語(yǔ)的重要性。這兩種算法已經(jīng)被證明在關(guān)鍵詞提取任務(wù)中取得了良好的效果[4]。然而,這兩種算法各自存在一些缺陷。

        TF-IDF算法只考慮了單詞的頻率信息,忽略了單詞之間的關(guān)系。TextRank算法考慮了單詞之間的關(guān)系,但是它沒有考慮單詞的頻率信息。因此,結(jié)合應(yīng)用兩種算法可以克服它們各自的缺點(diǎn),提高關(guān)鍵詞提取的準(zhǔn)確性。

        本文方法首先對(duì)文本進(jìn)行預(yù)處理,包括分詞、去除停用詞等操作;其次使用TF-IDF算法計(jì)算每個(gè)詞的重要性并進(jìn)行歸一化處理,同時(shí)使用TextRank算法考慮單詞之間的關(guān)系,計(jì)算每個(gè)單詞的得分并進(jìn)行歸一化處理;最后,將TF-IDF值和TextRank得分進(jìn)行加權(quán)和得到每個(gè)詞的綜合權(quán)重值,按照權(quán)重值從大到小排序后選擇權(quán)重值最高的前N 個(gè)單詞作為關(guān)鍵詞。關(guān)鍵詞提取步驟如圖1所示。

        2 方法實(shí)現(xiàn)(Method implementation)

        2.1 數(shù)據(jù)集

        為了評(píng)估本文所提方法的效果,使用來(lái)自清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的THUCNews數(shù)據(jù)集中的131 601篇體育新聞數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集中都是text文件,為了方便數(shù)據(jù)處理與計(jì)算,將數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)中,數(shù)據(jù)集基本信息見表1,數(shù)據(jù)庫(kù)表設(shè)計(jì)見表2。

        2.2 數(shù)據(jù)預(yù)處理

        將文本從數(shù)據(jù)庫(kù)中讀取出來(lái),使用jieba.lcut()進(jìn)行分詞,同時(shí)使用百度停用詞表過(guò)濾停用詞等,方便后續(xù)處理。

        (1)分詞。使用分詞工具(如jieba)對(duì)給定的中文文本進(jìn)行分詞,將文本轉(zhuǎn)化為詞語(yǔ)序列。使用默認(rèn)的精確模式words =jieba.lcut(sentence)。雖然Paddle模式(飛槳模式)對(duì)機(jī)構(gòu)團(tuán)體名的解析更準(zhǔn)確,但是對(duì)分詞效果不大。使用Paddle模式非常耗時(shí),性價(jià)比不高。通過(guò)實(shí)際測(cè)算,使用Paddle模式對(duì)100條語(yǔ)句進(jìn)行分詞的耗時(shí),約是不使用Paddle模式的103倍,如表3所示。

        (2)去停用詞。在進(jìn)行新聞文本關(guān)鍵詞提取前,需要做停用詞處理,主要是為了去除一些無(wú)意義的高頻詞匯,如“的、是、了、而、和”等。這些詞語(yǔ)出現(xiàn)的頻率非常高,但它們本身并沒有太多的語(yǔ)義信息,對(duì)于關(guān)鍵詞提取沒有太大的幫助。同時(shí),去除這些無(wú)用的詞匯也可以減少文本處理的時(shí)間和計(jì)算量。停用詞處理的方法通常是通過(guò)建立一個(gè)停用詞表,包含需要去除的無(wú)用詞匯。在進(jìn)行文本處理時(shí),對(duì)于每一個(gè)詞語(yǔ)都需要和停用詞表中的詞匯進(jìn)行比對(duì),如果該詞語(yǔ)屬于停用詞,則將其去除,否則保留。這樣可以去除一些無(wú)用的高頻詞匯,提高關(guān)鍵詞提取的準(zhǔn)確性和效率。本文對(duì)比三個(gè)常用的中文停用詞表后,決定使用百度停用詞表過(guò)濾停用詞。停用詞表適用類型見表4。

        2.3 計(jì)算TF-IDF得分

        TF-IDF的中文名為“詞頻-逆文檔頻率”,是一種統(tǒng)計(jì)方法,用于評(píng)估一個(gè)詞語(yǔ)在文檔中的重要程度。由詞頻(TermFrequency,TF)和逆文檔頻率(Inverse Document Frequency,IDF)兩個(gè)部分組成,它的核心思想是一個(gè)詞語(yǔ)在一篇文檔中出現(xiàn)的次數(shù)越多,同時(shí)在其他文檔中出現(xiàn)的次數(shù)越少,那么就越能代表該文檔[5]。

        TF(詞頻)指的是某個(gè)詞在一篇文檔中出現(xiàn)的頻率。TF越高,說(shuō)明這個(gè)詞在文檔中出現(xiàn)的次數(shù)越多,越重要。

        IDF(逆文檔頻率)指的是某個(gè)詞在所有文檔中出現(xiàn)的頻率的倒數(shù)。如果一個(gè)詞在所有文檔中都頻繁出現(xiàn),那么它的IDF就會(huì)很低,說(shuō)明這個(gè)詞在區(qū)分文檔時(shí)并沒有太大的用處。相反,如果一個(gè)詞只在少數(shù)文檔中出現(xiàn),那么它的IDF就會(huì)很高,說(shuō)明這個(gè)詞在區(qū)分文檔時(shí)具有很大的作用。

        綜合考慮TF和IDF,可以計(jì)算一個(gè)詞的TF-IDF值,它越高就表示這個(gè)詞在文檔中越重要[6]。計(jì)算公式如下:

        4 結(jié)論(Conclusion)

        本文提出了一種基于TF-IDF和TextRank的中文文本體育新聞的關(guān)鍵詞提取方法。該方法結(jié)合了TF-IDF算法和TextRank算法的優(yōu)點(diǎn),提高了關(guān)鍵詞提取的準(zhǔn)確性。通過(guò)TF-IDF方法可以篩選出具有高重要性的單詞,而TextRank方法則可以通過(guò)考慮單詞之間的關(guān)系提高關(guān)鍵詞的準(zhǔn)確性。為驗(yàn)證該方法,使用體育新聞數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與只使用TF-IDF和只使用TextRank進(jìn)行提取關(guān)鍵詞準(zhǔn)確率結(jié)果的比較。實(shí)驗(yàn)結(jié)果表明,TF-IDF和TextRank結(jié)合的方法在F1 值上選擇5個(gè)關(guān)鍵詞時(shí)取得了更好的結(jié)果,相對(duì)于只使用TFIDF方法準(zhǔn)確性提高約40%,相對(duì)于只使用TextRank方法準(zhǔn)確性提高約32%。對(duì)基于TF-IDF和TextRank的方法進(jìn)行詳細(xì)分析發(fā)現(xiàn),使用TextRank算法可以捕捉單詞之間的關(guān)系,有助于識(shí)別出一些相關(guān)的關(guān)鍵詞,但是它也容易將一些不相關(guān)的單詞也包含進(jìn)來(lái),而使用TF-IDF算法可以過(guò)濾一些常見的單詞,提高了關(guān)鍵詞的準(zhǔn)確性。結(jié)合這兩種算法可以更好地平衡準(zhǔn)確性和召回率,提高關(guān)鍵詞的提取效果。

        基于TF-IDF和TextRank的方法還有一些改進(jìn)的空間,如將詞語(yǔ)的語(yǔ)義信息考慮進(jìn)來(lái),使用深度學(xué)習(xí)等方法進(jìn)行建模等。在未來(lái)的研究中,可以繼續(xù)改進(jìn)基于TF-IDF和TextRank的方法,并在其他領(lǐng)域的關(guān)鍵詞提取任務(wù)中應(yīng)用。

        參考文獻(xiàn)(References)

        [1] 孟慶麟. 我國(guó)新聞出版的熱點(diǎn)關(guān)鍵詞分析與發(fā)展對(duì)策究研究[D]. 大連:大連海事大學(xué),2019.

        [2] 蔣艷. 語(yǔ)料庫(kù)方法在新聞傳播研究中的發(fā)展應(yīng)用分析[J].新聞研究導(dǎo)刊,2022,13(24):23-26.

        [3] 何傳鵬,尹玲,黃勃,等. 基于BERT和LightGBM 的文本關(guān)鍵詞提取方法[J]. 電子科技,2023,36(3):7-13.

        [4] 張曉麗. 面向新聞?lì)I(lǐng)域的關(guān)鍵詞提取方法研究及系統(tǒng)實(shí)現(xiàn)[D].太原:山西大學(xué),2021.

        [5] WANG Z H,WANG D, LI Q. Keyword extraction fromscientific research projects based on SRP-TF-IDF[J]. ChineseJournal of Electronics,2021,30(4):652-657.

        [6] 張瑾. 基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志,2014,33(4):153-155.

        [7] 趙占芳,劉鵬鵬,李雪山. 基于改進(jìn)TextRank的鐵路文獻(xiàn)關(guān)鍵詞抽取算法[J]. 北京交通大學(xué)學(xué)報(bào),2021,45(2):80-86.

        [8] 李晨,趙燕清,于俊鳳,等. 基于詞向量與TextRank的政策文本關(guān)鍵詞匯抽取方法研究[J]. 現(xiàn)代計(jì)算機(jī),2023,29(2):68-72.

        作者簡(jiǎn)介:

        蘭曉芳(1998-),女,本科生。研究領(lǐng)域:數(shù)據(jù)處理,推薦算法。

        劉 卓(2002-),男,本科生。研究領(lǐng)域:人工智能,數(shù)據(jù)處理。

        許志豪(2001-),男,本科生。研究領(lǐng)域:機(jī)器學(xué)習(xí),數(shù)據(jù)處理。

        肖 毅(1978-),男,博士生,講師。研究領(lǐng)域:數(shù)據(jù)處理,模式識(shí)別。本文通信作者。

        猜你喜歡
        分詞文檔準(zhǔn)確性
        有人一聲不吭向你扔了個(gè)文檔
        淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
        結(jié)巴分詞在詞云中的應(yīng)用
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        值得重視的分詞的特殊用法
        美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
        論股票價(jià)格準(zhǔn)確性的社會(huì)效益
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        超聲引導(dǎo)在腎組織活檢中的準(zhǔn)確性和安全性分析
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        在线观看国产成人av片| 国产白色视频在线观看| 久久精品网站免费观看| 一品二品三品中文字幕| 999国产精品视频| 少妇一区二区三区乱码| 日韩精品视频免费网站| 黑森林福利视频导航| 波多野结衣有码| 国产毛片三区二区一区| 亚洲网站一区在线播放| 少妇被粗大的猛烈进出69影院一 | 亚洲国产精品二区三区| 一个少妇的淫片免费看| 精品国产一区二区三区免费 | 无码啪啪熟妇人妻区| 日本高级黄色一区二区三区| 娜娜麻豆国产电影| 偷窥村妇洗澡毛毛多| 少妇爽到爆视频网站免费| 国产老熟女精品一区二区| 999国内精品永久免费观看| 91制服丝袜| 亚洲精品国产精品系列| 国产亚洲av另类一区二区三区| 无码毛片视频一区二区本码| 国产熟女亚洲精品麻豆| 日本女优禁断视频中文字幕 | 久久综合亚洲鲁鲁五月天| 亚洲欧美国产精品久久| 日本韩无专砖码高清| 精品亚洲人伦一区二区三区| 精品亚洲一区二区三区四区五| 国产成人av大片大片在线播放 | 一本久久精品久久综合桃色| 久久久精品亚洲一区二区国产av| 久久99精品九九九久久婷婷 | 日韩在线视精品在亚洲| av在线播放免费观看| 真实国产老熟女无套中出| 日韩在线观看你懂的|