亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文文本的詞云分析方法

        2022-09-23 13:26:20云太真
        電腦報 2022年36期
        關鍵詞:詞匯文本

        云太真

        對中文文本進行詞頻分析,進而生成詞云,是一種常見的文本分析方法。詞云分析有助于快速掌握文章主要內容,抓住重點,深入理解文章內涵,并以圖形化的方式進行展示。本文以國家發(fā)展改革委和國家能源局今年5月發(fā)布的《關于促進新時代新能源高質量發(fā)展的實施方案》一文為例,使用Python語言及其擴展包,對其進行詞頻分析,生成詞云。

        一、整理和讀取文件

        首先是整理文件,從網(wǎng)上可以找到此文件的文本,復制整理為TXT格式,去掉無關內容,去掉注解和說明。我們分析的是文本正文,對其他內容不做研究。

        接著,我們利用Python語言的文件操作,將文件讀入到字符串中,如下:

        article=open(‘E:/關于促進新時代新能源高質量發(fā)展的實施方案.txt).read()

        這條語句在執(zhí)行的時候會報告錯誤。經(jīng)查,發(fā)現(xiàn)最近Windows10操作系統(tǒng)下的記事本程序進行了更新。使用記事本程序保存TXT文本的時候,它會默認保存為utf-8編碼格式。這說明微軟不再把ANSI編碼作為默認的編碼格式。因此代碼在打開文件的時候,需要指定編碼格式如下:

        該語句執(zhí)行后,article是一個包含文件所有內容的字符串。

        二、分詞和詞頻統(tǒng)計

        接下來,我們需要將這個連續(xù)的文本分割為詞匯,這樣才能進行詞頻分析。需要說明的是,漢語詞匯的分割是一個難題。首先來說,漢語的基本單位是字,字組成詞,詞和詞之間沒有明顯的標識。這一點不像英文文本,英語文本的詞是基本單位,詞和詞之間有空格分開,漢語文本的詞之間是連續(xù)的。其次,漢語的詞和詞也能組成詞、成語、歇后語等,這些語言現(xiàn)象的存在對詞匯的分割產(chǎn)生了很多困難。另外,不同學科的文本中往往還存在一些專業(yè)詞匯和術語,進行詞匯分割和識別需要對這些專業(yè)詞匯和術語進行處理。

        為解決中文分詞的問題,不少研究者提出了一些有用的算法。在Python語言領域,有些研究者或機構發(fā)布了對應的擴展包給大家使用,有些適用于通用的社會科學文本,有些適用于某些專業(yè)領域的文本。這里我們使用最常用的結巴分詞擴展包,使用之前我們要先安裝。具體方法是:在聯(lián)網(wǎng)情況下,在操作系統(tǒng)的命令行下運行指令:

        pip? install? jieba

        然后在程序中首先導入jieba分詞包,即:

        import jieba

        接下來,我們這樣使用jieba分詞包。這條語句,將把文本字符串a(chǎn)rticle分割為若干詞匯,并按順序,將詞匯作為列表的元素返回,article_words是一個列表。你可以試試觀察一下該列表的內容。

        article_words=jieba.lcut(article)

        分詞的目的是對文本中的詞匯進行頻度統(tǒng)計,這可以使用Python的字典類型,該字典的鍵就是文本中的詞,值就是該詞出現(xiàn)的頻度。針對前面的分詞列表,進行如下循環(huán):如果是新詞,加入字典,頻度設置為1;如果字典中已經(jīng)有了,就將頻度加1。代碼如圖:

        三、停詞問題

        我們接下來需要處理虛詞和標點符號問題。所謂虛詞,就是一些語氣詞和語法助詞,例如“啊”“的”“得”“地”等,這些虛詞和標點符號的出現(xiàn)頻度很高,但在語義分析中沒有意義,一般來說需要除去。除去這些內容的主要辦法是使用停詞文件和停詞列表。

        停詞文件是一個事先準備好的TXT文本文件,里面是一些常見的語氣詞、助詞和各種標點符號,每個詞一行。停詞文件可以從網(wǎng)上找到,是別人整理好的,自己在使用中也可以根據(jù)經(jīng)驗加入自己的“停詞”,也就是需要過濾掉的詞。程序讀取停詞文件,存放在停詞列表中。具體代碼如下:

        stop_words=open(‘stop.txt,encodi

        ng=“utf-8”).read().splitlines()

        這里的splitlines()函數(shù)可以把讀取到的文件按行存儲到列表中,每行是一個元素。

        接下來,我們使用停詞列表,把前面列表中的停詞刪除。

        另外,中文文本中,一些出現(xiàn)頻度比較低的詞可能也沒有太大意義,也可以酌情去掉:

        代碼這樣寫的主要原因是字典不能在循環(huán)的時候刪除元素。注意具體出現(xiàn)頻度多低的詞可以去掉,需要根據(jù)文本長度和詞的數(shù)量來斟酌,也可以先生成詞云圖觀察后再做調整。

        四、詞云圖的生成

        詞云圖的生成通常調用第三方庫wordcloud。這個庫在使用之前也需要安裝。具體方法是在操作系統(tǒng)的命令行下輸入如下指令:

        pip install wordcloud

        然后在程序中先導入wordcloud再使用,即:

        import wordcloud

        然后,利用模塊中的Wordcloud()方法生成實例化對象,該方法的常用參數(shù)如下:background_color表示顏色,默認為黑色;width和height表示生成的詞云圖的寬和高,單位是像素;font_path表示字體文件的路徑;max_font_size表示最大字號;max_words表示最多容納的詞匯。這些參數(shù)都有默認值,不是必需的,但對中文詞云分析來說,font_path參數(shù)是必須設置的,否則無法顯示漢字。這里我們進行如下設置:

        接下來,需要把前面處理好的詞頻字典對象交給詞云對象:

        w.generate_from_frequencies(words_freq)

        最后,詞云對象就可以導出生成詞云圖了,這是一個.png格式的圖片文件,需要指定路徑和文件名。

        w.to_file(‘e:/新能源.png)

        程序就這樣完成了。運行結果如下圖:

        注意詞云實例化參數(shù)中的max_font_size決定了這個詞云圖中最大號詞的字號,font_path指向的是Windows系統(tǒng)中的黑體字,如果想使用其他字體,需要指向對應的字體文件。整理后完整代碼如圖。

        猜你喜歡
        詞匯文本
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        本刊可直接用縮寫的常用詞匯
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        一些常用詞匯可直接用縮寫
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉化
        人間(2015年20期)2016-01-04 12:47:10
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        黄色a级国产免费大片| 女优av性天堂网男人天堂| 国产亚洲人成在线观看| 亚洲精品www久久久久久| 亚洲欧美综合在线天堂| 99久久久精品免费| 亚洲av男人的天堂在线| 亚洲精品一区二区国产精华液| 亚洲成av人片在线观看无码| 国产xxxxx在线观看免费| 国产精品一区又黄又粗又猛又爽| 男人天堂这里只有精品| 国产无遮挡又黄又爽在线观看| 国产亚洲欧美在线观看的| 日本成人三级视频网站| 日本av一区二区三区在线| 免费人成视频xvideos入口| 热久久网站| 国产熟妇一区二区三区网站| 日日噜噜夜夜狠狠久久丁香五月| 国产激情精品一区二区三区| 男女视频在线一区二区| 日本三区在线观看视频| 亚洲sm另类一区二区三区| 亚洲综合一区无码精品| 国产在线白浆一区二区三区在线| 亚洲精品一区二区高清| 果冻传媒2021精品一区| 中文亚洲爆乳av无码专区| 日本办公室三级在线看| 精品无码久久久久久久久| 亚洲精品久久久久久动漫| 亚洲国产日韩在线精品频道| 91精品国产91综合久久蜜臀 | 欧美精品videosse精子| 亚洲人成网站在线观看播放| 亚洲最新中文字幕一区| 国产亚洲精品色婷婷97久久久 | 亚洲av无码片一区二区三区| 成人国产自拍在线播放| 丝袜美腿在线观看一区|