亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA的公共文化主題提取與演化分析*

        2021-06-10 05:10:54劉仕陽(yáng)化柏林
        圖書情報(bào)研究 2021年2期
        關(guān)鍵詞:分詞文本活動(dòng)

        劉仕陽(yáng) 化柏林

        (1.中山大學(xué)信息管理學(xué)院 廣州 510275;(2.北京大學(xué)信息管理系 北京 100871;3.公共文化服務(wù)大數(shù)據(jù)應(yīng)用文化和旅游部重點(diǎn)實(shí)驗(yàn)室 北京 100871)

        0 引言

        近年來(lái),國(guó)家對(duì)公共文化發(fā)展空前重視,公眾對(duì)公共文化服條的需求與日俱增;大數(shù)據(jù)、云計(jì)算與人工智能等技術(shù)深刻地影響著公共文化服條的業(yè)條形態(tài)與服條模式。在政策引領(lǐng)、社會(huì)需求與技術(shù)推動(dòng)三個(gè)方面的影響下,公共文化的業(yè)條水平與服條能力不斷提升,各地文化云的建設(shè)蓬勃發(fā)展,各類系統(tǒng)平臺(tái)、創(chuàng)新模式、地方特色不斷涌現(xiàn),通過(guò)創(chuàng)新服條模式、構(gòu)建數(shù)字平臺(tái)來(lái)吸引用戶,保持用戶粘性,農(nóng)民工吳桂春在東莞圖書館的留言幾日內(nèi)刷屏網(wǎng)絡(luò)。

        新的服條模式會(huì)在相關(guān)機(jī)構(gòu)的官方網(wǎng)站上進(jìn)行詳細(xì)闡述,各類活動(dòng)也會(huì)在官網(wǎng)上進(jìn)行通知與總結(jié)報(bào)道。要想快速、準(zhǔn)確、全面地了解全國(guó)公共文化發(fā)展的最新動(dòng)態(tài)、各類模式,依托傳統(tǒng)的調(diào)研與填報(bào)的方式怕是難以完成。通過(guò)官方網(wǎng)站的報(bào)道與介紹,對(duì)這些信息進(jìn)行采集、分析、聚類與主題提取,分析熱門主題及其隨時(shí)間的演進(jìn)過(guò)程,探尋各個(gè)地區(qū)的工作重點(diǎn)與特色分布,從整體上把握我國(guó)公共文化服條領(lǐng)域的工作重心和發(fā)展態(tài)勢(shì)。

        1 相關(guān)研究評(píng)述

        公共文化服條是指由政府主導(dǎo)的公共機(jī)構(gòu)為滿足公民文化需求而提供的公共文化設(shè)施、產(chǎn)品、活動(dòng)或其他服條。公共文化服條的最新動(dòng)態(tài)、服條體系如何,是公共文化服條領(lǐng)域的基本問(wèn)題,也是決定著公共文化服條效果的關(guān)鍵。

        1.1 公共文化服務(wù)的計(jì)量分析研究

        (1)公共文化服條研究成果的計(jì)量分析

        楊林等以2005-2016年CNKI數(shù)據(jù)庫(kù)中公共文化服條領(lǐng)域的文獻(xiàn)為研究對(duì)象,運(yùn)用共詞聚類和戰(zhàn)略坐標(biāo)法分析我國(guó)公共文化服條領(lǐng)域的熱點(diǎn)集中在基本公共文化服條標(biāo)準(zhǔn)、文化服條體系公平化、文化服條供給機(jī)制等方面[1]。李少惠等對(duì)我國(guó)學(xué)者公共文化服條研究的成果進(jìn)行高頻關(guān)鍵詞統(tǒng)計(jì)與知識(shí)圖譜繪制發(fā)現(xiàn),基本公共文化服條均等化、公共文化服條績(jī)效評(píng)估等為該領(lǐng)域的研究熱點(diǎn)[2]。劉宇等基于2012—2017年31個(gè)省域的面板數(shù)據(jù),通過(guò)耦合協(xié)調(diào)度對(duì)我國(guó)公共文化服條與文化產(chǎn)業(yè)的協(xié)調(diào)發(fā)展?fàn)顩r進(jìn)行分析[3]。

        (2)公共文化領(lǐng)域政策文本分析

        公共文化領(lǐng)域是受政策影響較為明顯的領(lǐng)域,國(guó)家重視、政策支持,該領(lǐng)域就會(huì)取得較好的發(fā)展。因此,從政策視角分析公共文化領(lǐng)域的發(fā)展也能看出工作重點(diǎn)與發(fā)展主線。王平[4]和李少惠[5]等人各自利用內(nèi)容分析法和文獻(xiàn)計(jì)量手段對(duì)我國(guó)近年的公共文化服條政策進(jìn)行了量化統(tǒng)計(jì)與內(nèi)容分析。曹樹金等人則采用了政策分析方法,對(duì)我國(guó)2009至2018年間的相關(guān)政策文本建立了包括政策工具、政策外部結(jié)構(gòu)特征以及政策文本的主題特征的三維立體模型,全方面反映了這10年間的政策熱點(diǎn)與重點(diǎn)[6]。

        1.2 公共文化服務(wù)大數(shù)據(jù)研究

        大數(shù)據(jù)在電子商條、智慧城市、應(yīng)急管理等領(lǐng)域取得了很多成功應(yīng)用,既能支撐業(yè)條管理,也能支撐行業(yè)洞察與規(guī)劃決策。公共文化領(lǐng)域作為數(shù)據(jù)密集型與以用戶為中心的行業(yè),積極研究大數(shù)據(jù)技術(shù)方法在本領(lǐng)域的應(yīng)用以及行業(yè)大數(shù)據(jù)的發(fā)展。

        (1)公共文化服條大數(shù)據(jù)體系研究

        劉煒等針對(duì)公共文化服條大數(shù)據(jù)發(fā)展的頂層設(shè)計(jì),研究了這一過(guò)程中的政策與宏觀管理、產(chǎn)業(yè)鏈與行業(yè)生態(tài)、技術(shù)標(biāo)準(zhǔn)規(guī)范等問(wèn)題[7]。李廣建等認(rèn)為應(yīng)著重關(guān)注公共文化服條大數(shù)據(jù)的概念與邊界、方法體系、數(shù)據(jù)集成整合、用戶畫像建模、精準(zhǔn)服條以及發(fā)展戰(zhàn)略研究[8]。曹健等介紹了基于Hadoop的高校圖書館數(shù)字資源大數(shù)據(jù)分析系統(tǒng),包括基礎(chǔ)數(shù)據(jù)集成、讀者標(biāo)簽化、資源分析、業(yè)條分析以及系統(tǒng)綜合管理等五個(gè)功能模塊[9]。曹磊總結(jié)了國(guó)外公共文化大數(shù)據(jù)應(yīng)用創(chuàng)新實(shí)踐,包括公共需求獲取、開放整合數(shù)據(jù)提高資源利用效率、數(shù)據(jù)近端移動(dòng)項(xiàng)目開發(fā)等[10]。這些研究建立了公共文化大數(shù)據(jù)應(yīng)用的初步理論和框架,對(duì)公共文化領(lǐng)域的數(shù)據(jù)資源進(jìn)行了很好的分析與梳理,描述了數(shù)據(jù)分析的應(yīng)用場(chǎng)景,為大數(shù)據(jù)在公共文化領(lǐng)域的應(yīng)用實(shí)踐提供了有力的指導(dǎo)與幫助。

        (2)公共文化領(lǐng)域的信息抽取研究

        圖書館作為公共文化服條機(jī)構(gòu)的典型代表,所擁有的數(shù)據(jù)資源以文本類型為主,從文本數(shù)據(jù)中抽取有針對(duì)性的信息單元有著廣泛的應(yīng)用價(jià)值。張智雄認(rèn)為信息抽取技術(shù)可以在數(shù)字內(nèi)容的自動(dòng)標(biāo)引、元數(shù)據(jù)獲取、數(shù)據(jù)挖掘、情報(bào)分析研究、大型知識(shí)庫(kù)數(shù)值庫(kù)建設(shè)和參考咨詢等方面發(fā)揮重要作用[11]。畢崇武等人提出了一種基于知識(shí)鏈接的多粒度知識(shí)集合集成方法,將數(shù)字圖書館知識(shí)服條從文獻(xiàn)單元深入到以知識(shí)元、知識(shí)元集合為單位的精細(xì)單元上[12]。牟冬梅等人以本體提供的語(yǔ)義知識(shí)為依據(jù),構(gòu)建了以“元數(shù)據(jù)、領(lǐng)域本體、橋本體、本體解析體系”為核心的語(yǔ)義模型,用于對(duì)數(shù)字圖書館中數(shù)字資源進(jìn)行實(shí)體抽取和語(yǔ)義關(guān)系的形式化描述[13]。

        1.3 研究述評(píng)

        這些研究進(jìn)展對(duì)于分析診斷公共文化服條領(lǐng)域存在的問(wèn)題、創(chuàng)新公共文化產(chǎn)品供給與服條模式、建立公共文化服條大數(shù)據(jù)體系具有良好的推動(dòng)與促進(jìn)作用。但從當(dāng)前宏觀管理、社會(huì)需求與技術(shù)變革的視角來(lái)看,這些研究還存在以下不足或可改進(jìn)之處。

        (1)計(jì)量分析類論文能反映研究進(jìn)展,但難以反映業(yè)條動(dòng)態(tài)

        對(duì)以論文為主的研究成果進(jìn)行計(jì)量分析與主題演化分析,能夠較好地反映研究熱點(diǎn)與研究趨勢(shì),但對(duì)行業(yè)發(fā)展動(dòng)態(tài)、業(yè)條模式等揭示度不夠,這類在官方介紹、新聞報(bào)道、領(lǐng)導(dǎo)講話、機(jī)構(gòu)年報(bào)等中反映會(huì)更充分,以這些實(shí)際發(fā)生的業(yè)條數(shù)據(jù)為研究對(duì)象的研究還不多見(jiàn)。對(duì)政策文本進(jìn)行計(jì)量分析與內(nèi)容分析也是一種好的嘗試,但這類研究更加依賴于政策發(fā)布的密度與覆蓋面,而且政策法規(guī)的制定與出臺(tái)本身需要經(jīng)過(guò)很長(zhǎng)時(shí)間的論證,時(shí)滯比較長(zhǎng),適合歷史研究與長(zhǎng)期規(guī)劃方面的洞察。對(duì)于最新的行業(yè)動(dòng)態(tài)難以即時(shí)反映與體現(xiàn)。

        (2)公共文化服條大數(shù)據(jù)研究體系設(shè)計(jì)探討較多,實(shí)證數(shù)據(jù)研究較少。

        公共文化服條大數(shù)據(jù)方面,理論探討與體系設(shè)計(jì)的研究較多一些,有些大數(shù)據(jù)應(yīng)用方面的探討,但研究往往還是從理論視角切入,通過(guò)對(duì)實(shí)際數(shù)據(jù)進(jìn)行分析與處理的研究并不多見(jiàn)。有涉及到大數(shù)據(jù)技術(shù)實(shí)現(xiàn)的,多以某單位或某地區(qū)的相關(guān)單位的業(yè)條數(shù)據(jù)為主,從全國(guó)的層面利用實(shí)際數(shù)據(jù)和大數(shù)據(jù)技術(shù)解決行業(yè)問(wèn)題的研究尚不多見(jiàn)。內(nèi)容計(jì)算方面,主要是對(duì)外部的政策文件和內(nèi)部?jī)?chǔ)藏的文獻(xiàn)資源進(jìn)行信息抽取,針對(duì)圖書館等機(jī)構(gòu)自身的業(yè)條數(shù)據(jù)、報(bào)告文本的信息抽取相對(duì)較少,缺少對(duì)于我國(guó)公共文化服條領(lǐng)域整體上的工作重心和特色主題的動(dòng)態(tài)監(jiān)測(cè)與刻畫。

        因此本文在前人的研究成果基礎(chǔ)上,嘗試從我國(guó)省級(jí)圖書館、文化館等具體單位入手,收集其館內(nèi)相關(guān)的新聞資訊與活動(dòng)報(bào)道文本并做主題分析,以LDA主題模型分析為主,探究全國(guó)各省公共文化機(jī)構(gòu)的服條重點(diǎn),監(jiān)測(cè)公共文化行業(yè)發(fā)展的最新動(dòng)態(tài),揭示公共文化服條的領(lǐng)域發(fā)展現(xiàn)狀。

        2 研究設(shè)計(jì)與數(shù)據(jù)準(zhǔn)備

        2.1 研究?jī)?nèi)容與流程

        本文針對(duì)中國(guó)除港澳臺(tái)地區(qū)以外的31個(gè)省的圖書館和文化館官網(wǎng)所發(fā)布的活動(dòng)報(bào)道和新聞資訊文本進(jìn)行主題挖掘。采用爬蟲技術(shù)對(duì)新聞和活動(dòng)報(bào)道的文本數(shù)據(jù)進(jìn)行采集,對(duì)獲取的文本數(shù)據(jù)進(jìn)行一系列預(yù)處理操作,先根據(jù)正則表達(dá)式去除文本中的特殊字符、標(biāo)點(diǎn)符號(hào)以及亂碼等符號(hào),再對(duì)文本進(jìn)行中文分詞、停用詞處理等操作,通過(guò)擴(kuò)充停用詞表和自定義領(lǐng)域詞表進(jìn)行優(yōu)化分詞結(jié)果。

        通過(guò)TF-IDF對(duì)文本語(yǔ)料進(jìn)行關(guān)鍵詞提取和聚類,得出初步的主題提取結(jié)果。在分詞結(jié)果基礎(chǔ)上進(jìn)行LDA主題建模,主題建模過(guò)程中引入“主題一致性”控制主題分類結(jié)果數(shù)量。以關(guān)鍵詞聚類得出的主題聚類結(jié)果為參考,綜合LDA模型的分類結(jié)果和相應(yīng)主題類下的關(guān)鍵詞,經(jīng)過(guò)主題篩選和合并獲得最終的主題提取結(jié)果。

        基于提取出的主題按照省份地區(qū)、時(shí)間等特征進(jìn)行統(tǒng)計(jì)分析和關(guān)聯(lián)分析,描述我國(guó)省一級(jí)單位的公共文化機(jī)構(gòu)的業(yè)條主線、時(shí)代特點(diǎn)與地方特色等,揭示各個(gè)省份地區(qū)所打造的公共文化主題特色以及地區(qū)之間的文化主題相似性。具體研究流程如圖1所示。

        圖1 基于LDA的公共文化主題提取分析流程圖

        2.2 數(shù)據(jù)特點(diǎn)分析與獲取

        公共文化領(lǐng)域的活動(dòng)報(bào)告、新聞資訊等既有一般新聞的共性特點(diǎn),也有公共文化領(lǐng)域的自身特色。充分分析并梳理這些數(shù)據(jù)的特點(diǎn),將有助于后續(xù)的技術(shù)選型與分析處理。

        2.2.1 公共文化新聞活動(dòng)文本的特點(diǎn)

        活動(dòng)報(bào)道或新聞資訊多數(shù)是針對(duì)于某一特定事件的官方報(bào)道,反映該公共文化機(jī)構(gòu)對(duì)于該活動(dòng)事件的描述、總結(jié)和評(píng)價(jià)。具體來(lái)說(shuō)具有以下特征:

        (1)主體事件明確。一般來(lái)說(shuō),一篇活動(dòng)報(bào)道會(huì)配有一個(gè)文章標(biāo)題,標(biāo)題常常是對(duì)文章主要內(nèi)容的總結(jié)。例如:《“用愛(ài)發(fā)聲,共同戰(zhàn)‘疫’”優(yōu)秀朗讀作品展示——致敬最美逆行者》,在此標(biāo)題中就提到了本篇報(bào)道的主體事件:抗疫相關(guān)的優(yōu)秀朗讀作品展示。(2)用語(yǔ)相對(duì)規(guī)范。作為新聞、報(bào)告等應(yīng)用類文本,其用語(yǔ)習(xí)慣為書面語(yǔ),語(yǔ)言規(guī)范性強(qiáng)。(3)表述充滿人文關(guān)懷。由于處于網(wǎng)絡(luò)環(huán)境中,加之公共文化領(lǐng)域本身體現(xiàn)著文學(xué)修養(yǎng)、人文關(guān)懷與文化傳播功能,活動(dòng)報(bào)道的撰寫會(huì)使用一些網(wǎng)絡(luò)流行詞匯和句式,注入一些情感色彩,使之更加生動(dòng)、具象,如“讓傳統(tǒng)文化青春不老!”。這也是公共文化領(lǐng)域明顯的用語(yǔ)特點(diǎn)。

        2.2.2 文本數(shù)據(jù)獲取

        本文使用網(wǎng)絡(luò)爬蟲作為文本收集工具,文本數(shù)據(jù)來(lái)源于31個(gè)的圖書館和文化館官方網(wǎng)站,通過(guò)編寫scrapy爬蟲框架,從各個(gè)圖書館、文化館的官方網(wǎng)站上獲取新聞和活動(dòng)報(bào)道的文本數(shù)據(jù),以csv的文件格式保存。除去天津、上海等地的幾個(gè)放棄網(wǎng)站維護(hù)的文化館,共收集到51個(gè)館的53 306條文本數(shù)據(jù)。各年度的文本數(shù)量情況如圖2所示。

        圖2 各年度文本數(shù)量分布圖

        由圖2可以看出,我國(guó)省級(jí)公共文化服條機(jī)構(gòu)對(duì)于新聞與活動(dòng)報(bào)道的文本數(shù)量逐年攀升,在2015年與2019年兩個(gè)年度實(shí)現(xiàn)了快速增長(zhǎng),較前一年度增長(zhǎng)近一倍,主要是由于在2015年1月發(fā)布了《國(guó)家基本公共文化服條指導(dǎo)標(biāo)準(zhǔn)(2015—2020年)》,相應(yīng)的文化機(jī)構(gòu)在這期間逐步落實(shí)文化活動(dòng)的舉辦和記錄。

        根據(jù)時(shí)間、地域與主題的分析需求,本研究關(guān)于活動(dòng)報(bào)道的描述共確定了6個(gè)數(shù)據(jù)項(xiàng),分別為所在省份、館類、館名、標(biāo)題、發(fā)布時(shí)間和正文。其中前三個(gè)數(shù)據(jù)項(xiàng)是可枚舉的,數(shù)據(jù)集確定,后三個(gè)數(shù)據(jù)項(xiàng)對(duì)于各條信息不盡相同。

        2.3 數(shù)據(jù)預(yù)處理

        2.3.1 數(shù)據(jù)清洗

        中文文本清洗是使文本數(shù)據(jù)標(biāo)準(zhǔn)化的過(guò)程,為了便于后續(xù)自然語(yǔ)言處理,需要進(jìn)行如下操作:

        統(tǒng)一文本的編碼方式,采用UTF-8格式。

        (2)缺失值處理,刪除數(shù)據(jù)不完整項(xiàng)。

        (3)去除非文本部分,主要包括活動(dòng)內(nèi)容文本中的空白符、換行符、標(biāo)點(diǎn)符號(hào)、網(wǎng)頁(yè)URL鏈接以及HTML字符和標(biāo)簽等,統(tǒng)一采用正則表達(dá)式處理。

        2.3.2 中文分詞

        本文采用的中文分詞工具為python編程環(huán)境下的jieba分詞庫(kù)。

        分詞系統(tǒng)配置與分詞結(jié)果展示

        在詞典分詞方法中,詞典的質(zhì)量直接決定分詞效果的好壞。因此在分詞過(guò)程中,為了獲得更好的分詞效果,需要用戶添加自定義詞典和停用詞表。

        ① 停用詞設(shè)置:停用詞指在文檔中出現(xiàn)頻率高但是對(duì)于文本分析沒(méi)有太大實(shí)際意義的介詞、助詞、連詞等,比如常見(jiàn)的“的”、“了”、“呢”。本文綜合了“哈工大停用詞詞庫(kù)”等幾種常用停用詞表,并結(jié)合后續(xù)的分詞結(jié)果不斷向其中添加新的停用詞,最終得到4 765條停用詞。

        ② 引入用戶詞典:對(duì)于特定的研究領(lǐng)域,需要構(gòu)建相關(guān)的領(lǐng)域詞典提高分詞準(zhǔn)確率。本文主要使用hanlp主詞典。此外,在對(duì)文本進(jìn)行初步分詞后,提取高頻詞,結(jié)合公共文化領(lǐng)域?qū)Ω哳l詞進(jìn)行擴(kuò)展并添加入用戶詞典。一些固定搭配如“公共數(shù)字文化云平臺(tái)”等就避免了被進(jìn)一步切分。

        2.4 主題抽取方法選擇

        主題提取又稱特征提取,提取文檔主題是獲取文本有價(jià)值信息最有效直接的方式之一。在文本分析領(lǐng)域,主題提取是最為基礎(chǔ)和重要的內(nèi)容。常見(jiàn)的主題提取方法可以分為三類:基于統(tǒng)計(jì)特征、基于語(yǔ)義和主題模型的主題提取方法。

        基于統(tǒng)計(jì)特征的提取方法著眼于關(guān)鍵詞的出現(xiàn)頻率,傾向于直接從文檔中獲取關(guān)鍵詞,常見(jiàn)的方法是借助TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-倒排文檔頻次)算法獲得詞項(xiàng)的權(quán)重,將高權(quán)重詞列為特征選項(xiàng)。Li-Ping Jing等人就采用TF-IDF作為特征選取方法,將權(quán)重高的詞作為特征詞,為文本數(shù)據(jù)建立向量空間模型[14]。李昌兵等人將重點(diǎn)放在詞間關(guān)系上,使用改進(jìn)的Apriori算法尋找詞語(yǔ)的頻繁項(xiàng)集從網(wǎng)絡(luò)用戶評(píng)論中篩選得出產(chǎn)品特征[15]。

        基于語(yǔ)義的方法則注重詞匯之間的語(yǔ)義相關(guān)性,其往往需要構(gòu)建龐大的語(yǔ)義網(wǎng)絡(luò)和完善的語(yǔ)義規(guī)則。張韋引入WordNet本體庫(kù)在web文本間進(jìn)行語(yǔ)義相似度計(jì)算,利用文本之間的相似度進(jìn)行主題的語(yǔ)義級(jí)別合并,在對(duì)文本進(jìn)行聚類后再在各個(gè)主題內(nèi)部使用改進(jìn)的TF-IDF算法提取主題關(guān)鍵詞,在web主題提取研究上取得了良好的效果[16]。

        相較于前兩類方法,主題模型著眼于從文本語(yǔ)料中發(fā)現(xiàn)隱藏在詞匯下的潛在語(yǔ)義,將文檔向量從高維的詞項(xiàng)空間映射到低維的主題空間。主題模型領(lǐng)域中最為經(jīng)典和熱門的模型就是LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)主題模型,這一模型最早由Blei等人提出,對(duì)包含多主題的文本進(jìn)行分類提取主題有著較好的效果[17]。后續(xù)的主題抽取研究多為L(zhǎng)DA模型基礎(chǔ)上的改良,例如Blei等人提出一種相關(guān)主題模型(CTM),采用Logistic正態(tài)分布代替Dirichlet先驗(yàn)分布以獲得主題之間的相關(guān)性并對(duì)主題相關(guān)性進(jìn)行建模[18]。

        相較于TF-IDF算法的過(guò)于注重詞頻而常常忽視詞語(yǔ)背后的語(yǔ)義關(guān)聯(lián)、語(yǔ)義分析模型的難降維以及計(jì)算耗時(shí)等缺點(diǎn),主題模型集合了機(jī)器學(xué)習(xí)的優(yōu)點(diǎn),可以迅速?gòu)拇罅课谋局型诰虺鲭[含主題信息。也正因此,越來(lái)越多研究人員采用LDA模型作為主題提取的常規(guī)方法來(lái)完成領(lǐng)域文本分析任條。

        3 公共文化機(jī)構(gòu)新聞與活動(dòng)報(bào)道的主題挖掘

        針對(duì)經(jīng)過(guò)分詞處理的新聞文本進(jìn)行主題挖掘,主要涉及的內(nèi)容包括統(tǒng)計(jì)高頻詞、基于TFIDF提取關(guān)鍵詞和LDA主題模型的構(gòu)建與優(yōu)化。

        3.1 基于TF-IDF的關(guān)鍵詞提取

        用TF-IDF算法從長(zhǎng)文本中提取關(guān)鍵詞。利用jieba分詞中的jieba.analyse.extract_tags模塊,通過(guò)其內(nèi)置的TF-IDF算法對(duì)文檔處理,可以獲得文本語(yǔ)料的關(guān)鍵詞。通過(guò)設(shè)置參數(shù)topK=10,獲取了每篇文本語(yǔ)料權(quán)重得分前10位的關(guān)鍵詞及其TF-IDF權(quán)重占比,提取結(jié)果如圖3所示。

        圖3 關(guān)鍵詞提取結(jié)果

        為每一篇文檔進(jìn)行關(guān)鍵詞提取后,得到每篇文檔的最多10個(gè)關(guān)鍵詞及其TF-IDF值,對(duì)所有文檔中的關(guān)鍵詞及其權(quán)重占比進(jìn)行統(tǒng)計(jì)求和可得到各關(guān)鍵詞的總權(quán)重。再統(tǒng)計(jì)各關(guān)鍵詞之間在同一文檔中的共現(xiàn)次數(shù),結(jié)合各詞的總權(quán)重和關(guān)鍵詞之間在文本中的共現(xiàn)情況可建立起關(guān)鍵詞之間的共現(xiàn)矩陣。將各關(guān)鍵詞作為節(jié)點(diǎn),TFIDF值作為節(jié)點(diǎn)權(quán)重,關(guān)鍵詞共現(xiàn)次數(shù)作為邊權(quán)重,構(gòu)建成詞共現(xiàn)網(wǎng)絡(luò),將數(shù)據(jù)導(dǎo)入可視化軟件Gephi,選擇合適的排布方式、調(diào)整各指標(biāo)參數(shù),挑選權(quán)重占比最高的100個(gè)關(guān)鍵詞并繪制其無(wú)向關(guān)系網(wǎng)絡(luò)圖。結(jié)果如圖4所示。

        圖4 關(guān)鍵詞關(guān)系網(wǎng)絡(luò)圖

        利用Gephi內(nèi)置的模塊化算法[19](Modularity Class)對(duì)各節(jié)點(diǎn)進(jìn)行聚類。從圖4中可以看出,公共文化服條領(lǐng)域的信息報(bào)道集中在兒童與學(xué)生教育、攝影美術(shù)展覽、培訓(xùn)活動(dòng)、疫情訊息、室外節(jié)目演出活動(dòng)和非物質(zhì)文化遺產(chǎn)保護(hù)等6個(gè)主題大類。

        3.2 LDA主題模型構(gòu)建

        3.2.1 訓(xùn)練模型構(gòu)建與優(yōu)化

        本文利用python的gensim庫(kù)實(shí)現(xiàn)LDA主題模型的構(gòu)建,gensim可以從原始的非結(jié)構(gòu)化文本中,無(wú)監(jiān)督地學(xué)習(xí)到文本隱層的主題向量表達(dá),支持包括TF-IDF, LSA, LDA和word2vec在內(nèi)的多種模型[20]。

        在以gensim構(gòu)建的LDA主題模型中,最終訓(xùn)練結(jié)果的質(zhì)量主要取決于以下參數(shù):

        ① id2word,訓(xùn)練語(yǔ)料生成的詞典,由gensim中的coropra模塊將分詞后的語(yǔ)料集合收錄形成。

        ② corpus,訓(xùn)練語(yǔ)料的詞向量,將初始的新聞文本語(yǔ)料進(jìn)行去停用詞、分詞處理后,再根據(jù)生成的詞典將語(yǔ)料文本映射而成的稀疏向量集。

        ③ alpha、eta,分別是文檔-主題、主題-詞項(xiàng)Diriclet先驗(yàn)分布的超參數(shù),一般設(shè)為默認(rèn)常量[21]。

        ④ num_topics,預(yù)先設(shè)定要生成的主題數(shù)量,一般需要不斷嘗試并通過(guò)選擇主題數(shù)量以優(yōu)化模型。

        ⑤ passes,模型迭代的次數(shù),此處設(shè)置為20。

        在對(duì)生成的LDA主題模型的效果評(píng)估上,采用“主題一致性”(topic coherence)指標(biāo)進(jìn)行檢驗(yàn)[22]。這一指標(biāo)旨在為主題模型分類提高解釋性,保證同一主題類別下的主題詞間有較好的關(guān)聯(lián)性[23]。一般來(lái)說(shuō)主題一致性得分越高說(shuō)明訓(xùn)練的主題模型效果越好。

        3.2.2 最佳主題數(shù)量估計(jì)

        LDA主題模型的主題數(shù)量最終仍需要人工確定,本文設(shè)置了主題數(shù)目從5到29遍歷,為每一個(gè)模型進(jìn)行訓(xùn)練并計(jì)算其主題一致性得分,如圖5所示。

        圖5 主題一致性得分

        一方面要使主題一致性盡可能高以取得較好的模型訓(xùn)練效果,另一方面也需要控制主題數(shù)量相對(duì)較少以便于后續(xù)主題概括與解釋,因此本文最終確定主題數(shù)目為14個(gè)。

        3.2.3 主題挖掘結(jié)果

        本文運(yùn)用可視化工具pyLDAvis,為L(zhǎng)DA主題模型提取出的主題分類結(jié)果繪制主題分布圖,結(jié)果如圖6所示。圖中每個(gè)圓圈代表一個(gè)主題,圓圈大小代表涉及到的相關(guān)文本數(shù)量,圓圈之間的距離代表各主題的相似性。

        圖6 主題分布可視化

        從圖6可以看出,主題10與主題11、主題7與主題9重合度過(guò)高,對(duì)比各主題關(guān)鍵詞發(fā)現(xiàn)其語(yǔ)義相似度確實(shí)較為接近,因此本文將這幾個(gè)主題兩兩合并,另外將涉及文本數(shù)最少、主題特征最不顯著的主題14作為噪聲進(jìn)行篩除,最終得到11個(gè)主題分類結(jié)果。針對(duì)公共文化機(jī)構(gòu)的新聞與活動(dòng)報(bào)道文本的具體主題抽取結(jié)果見(jiàn)表1,通過(guò)分析各關(guān)鍵詞之間的聯(lián)系,對(duì)提取出的新聞與活動(dòng)文本的主題進(jìn)行總結(jié)并加以命名。

        表1 主題分類結(jié)果

        4 熱點(diǎn)主題可視化分析

        根據(jù)訓(xùn)練的LDA主題模型得出的11類新聞主題對(duì)全體文本進(jìn)行主題預(yù)測(cè),得到每篇文檔貢獻(xiàn)百分比最高的主題分類,將得分最高的主題作為文檔代表主題進(jìn)行統(tǒng)計(jì)。

        4.1 熱點(diǎn)主題新聞文本數(shù)量的時(shí)間分布情況

        根據(jù)每篇文檔的主題分類和發(fā)布時(shí)間,可以繪制出各主題相關(guān)的新聞文本數(shù)量的年度變化趨勢(shì),如圖7與8所示。

        圖7 主題新聞活動(dòng)時(shí)間分布圖1

        圖8 主題新聞活動(dòng)時(shí)間分布圖2

        由于2010年以前的網(wǎng)站服條尚未完善,數(shù)據(jù)量過(guò)少,故只統(tǒng)計(jì)2010至2019年的主題變化情況。從整體發(fā)展趨勢(shì)上看,表演型展出、學(xué)生教育、展覽型展出以及相關(guān)的新聞或活動(dòng)數(shù)量在2015年迅速增加,且隨后開始逐年攀升。結(jié)合國(guó)家中央機(jī)構(gòu)于2015年1月發(fā)布的《國(guó)家基本公共文化服條指導(dǎo)標(biāo)準(zhǔn)(2015—2020年)》,其中對(duì)社會(huì)基本公共文化服條項(xiàng)目落實(shí)如開展文體活動(dòng)和文藝演出的開展做出了明確要求。這說(shuō)明國(guó)家要求拓展公共文化機(jī)構(gòu)的延伸服條、全面提升其服條能力,另一方面也說(shuō)明各機(jī)構(gòu)對(duì)于文化政策的執(zhí)行能力強(qiáng),行業(yè)發(fā)展具有活力??傮w來(lái)說(shuō)我國(guó)基本公共文化服條項(xiàng)目正在逐步落實(shí)、穩(wěn)健發(fā)展。

        統(tǒng)計(jì)各主題在每一年的文本數(shù)量占比可以看出政府相關(guān)機(jī)構(gòu)的工作重心的轉(zhuǎn)移情況。本文根據(jù)主題變化情況將11個(gè)主題大致歸為增長(zhǎng)型、衰減型和波動(dòng)型主題。

        (1)增長(zhǎng)型主題。主要包括表演型演出、展覽型演出、通知通告類和非遺傳承。前兩類主題的占比自2013年以來(lái)就不斷上升,至2019年表演型演出占比已達(dá)45%。公共文化機(jī)構(gòu)發(fā)揮其社會(huì)職能最直接的方式就是開展文化演出活動(dòng)。一方面這類活動(dòng)的服條面廣,受歡迎程度高,群眾參與度高、參與感強(qiáng);另一方面此類活動(dòng)便于通過(guò)互聯(lián)網(wǎng)媒體報(bào)道,宣傳效果好,加上文化館逐年增加的活動(dòng)經(jīng)費(fèi)投入,也促使這類活動(dòng)占據(jù)蓬勃發(fā)展。非遺傳承的關(guān)鍵詞主要包括文化遺產(chǎn)、非遺保護(hù)等。由于本身主題領(lǐng)域較窄,其主題占比在以往一直保持在0.5%左右,直到2017年才迅速增加并保持在2%的水平。這方面主要得益于國(guó)家對(duì)于非遺保護(hù)的重視,于2016年投入大量預(yù)算,建設(shè)的非遺保護(hù)項(xiàng)目達(dá)到了“十二五”時(shí)期的4.4倍。另一方面也是得益于數(shù)字技術(shù)的進(jìn)步,自2010年“中國(guó)非遺數(shù)字化保護(hù)工程”被列為文化部“十二五”時(shí)期規(guī)劃項(xiàng)目以來(lái),我國(guó)非遺檔案的數(shù)字化進(jìn)程持續(xù)加快。

        (2)衰弱型主題為“數(shù)字化資源建設(shè)”和“古籍保護(hù)”。這類主題的減少,與圖書館領(lǐng)域的總體研究方向轉(zhuǎn)變有關(guān)。數(shù)字化資源是以圖書館為主,資源數(shù)字化的主要工作與問(wèn)題在2000年前后較為關(guān)注,之后逐步得到解決。2013年大數(shù)據(jù)流行以后,由數(shù)字化資源本身的關(guān)注轉(zhuǎn)到用戶分析、服條模式創(chuàng)新等方面?;ヂ?lián)網(wǎng)的興起使得文化傳播輕易突破地域壁壘,造成圖書館趨于同質(zhì)化,另一方面互聯(lián)網(wǎng)上豐富的資源降低了讀者前往圖書館獲取資源的意愿,弱化了圖書館文獻(xiàn)資源保存與傳播的職能,使得圖書館轉(zhuǎn)向開展文化教育活動(dòng)上。古籍保護(hù)與數(shù)字資源建設(shè)同理,展示度不高、用戶參與不強(qiáng),有些古籍已完成建檔、數(shù)字化等過(guò)程,另外有些研究開始轉(zhuǎn)向數(shù)字人文,如“數(shù)字敦煌”、“數(shù)字記憶”等。

        (3)波動(dòng)型主題是指一直以來(lái)保持相對(duì)較低的比重,只有在特定的某一年其占比會(huì)飆升。這類主題包括“傳統(tǒng)文化”、“機(jī)構(gòu)與領(lǐng)導(dǎo)”和“基層社區(qū)文化”。其中“傳統(tǒng)文化”和“基層社區(qū)文化”的主題占比都在2014年急速提升,當(dāng)年中國(guó)圖書館學(xué)會(huì)開展了“中國(guó)優(yōu)秀傳統(tǒng)文化”主題論壇,在強(qiáng)調(diào)了要提升圖書館文化職能的同時(shí)也凸顯了傳統(tǒng)文化元素,推動(dòng)了傳統(tǒng)文化的展示與傳播?!盎鶎由鐓^(qū)文化”主題的升溫主要與當(dāng)時(shí)社區(qū)文化建設(shè)有關(guān)。“機(jī)構(gòu)與領(lǐng)導(dǎo)”主題則一度于2013年主題占比達(dá)到39%。原因在于當(dāng)時(shí)大部分文化機(jī)構(gòu)的線上資源建設(shè)仍處于發(fā)展階段,根據(jù)統(tǒng)計(jì)2013年的文本來(lái)源發(fā)現(xiàn)山東省圖書館占了較大比重,這可能與行政氣氛濃郁等因素有關(guān)。

        4.2 熱點(diǎn)主題新聞與活動(dòng)的地域分布特點(diǎn)

        根據(jù)統(tǒng)計(jì)獲得省份與主題分布之間的關(guān)系,按照相關(guān)文本數(shù)計(jì)算各個(gè)省份在每個(gè)主題的文本分布比例。將每個(gè)省份在各主題上的分布比例映射成向量,用以表示其主題分布情況。計(jì)算各主題向量?jī)蓛芍g的夾角余弦,以此描述各省份文化機(jī)構(gòu)的主題相似性。將相似度達(dá)到一定閾值的省份聚類,本文設(shè)定的閾值為0.95,最終得到三個(gè)相似省份集合,如圖9-11所示。

        圖9 省市-主題雷達(dá)分布圖1

        圖10 省市-主題雷達(dá)分布圖2

        圖11 省市-主題雷達(dá)分布圖3

        第一組包括廣東、陜西和新疆三個(gè)省份,這一組在學(xué)生教育這個(gè)主題上尤為突出。第二組包括重慶、湖南、江蘇、浙江、青海和寧夏六個(gè)省份,主題分布特點(diǎn)為展出型活動(dòng)上。第三組包括遼寧、山西、廣西、湖北、貴州、甘肅和海南七個(gè)省份,主題分布上著重于發(fā)展學(xué)生教育和數(shù)字化資源建設(shè)。從聚類結(jié)果來(lái)看,區(qū)域相近的省份不一定聚到一塊,這也反映出在公共文化領(lǐng)域,相同區(qū)域的省份有明顯的差異化發(fā)展特點(diǎn)。

        利用雷達(dá)分布圖可以發(fā)現(xiàn),各省級(jí)文化機(jī)構(gòu)都有著各自的主題傾向,但是在大多數(shù)省份文化表演活動(dòng)的開展和教育學(xué)習(xí)活動(dòng)的報(bào)道都在總的活動(dòng)文本中占有一定比重。通過(guò)對(duì)各省級(jí)文化機(jī)構(gòu)主題分布進(jìn)行比較分類,有利于將來(lái)各省文化單位之間開展文化學(xué)習(xí)活動(dòng),有利于主題相似的省份之間建設(shè)省間文化機(jī)構(gòu)的區(qū)域性合作關(guān)系。

        5 結(jié)論與討論

        5.1 研究結(jié)論

        本文主要對(duì)我國(guó)省級(jí)公共文化機(jī)構(gòu)網(wǎng)站發(fā)布的新聞資訊和活動(dòng)文本進(jìn)行文本挖掘。從時(shí)間演化上來(lái)說(shuō),近些年隨著互聯(lián)網(wǎng)的發(fā)展政府相關(guān)機(jī)構(gòu)也已建立并完善數(shù)字化門戶平臺(tái),各類主題的活動(dòng)開展與新聞報(bào)道數(shù)量也逐年增多。從各類主題文本的內(nèi)部比例來(lái)看,我國(guó)公共文化機(jī)構(gòu)對(duì)表演型藝術(shù)活動(dòng)的關(guān)注度逐漸升高,與此對(duì)應(yīng)的就是其對(duì)數(shù)字化資源建設(shè)和古籍保護(hù)等工作的相關(guān)報(bào)道占比在逐年降低,機(jī)構(gòu)將工作力量從這兩個(gè)方面挪到活動(dòng)開展上,可以看出是在響應(yīng)國(guó)家相關(guān)指導(dǎo)文件對(duì)重視文化服條活動(dòng)項(xiàng)目的呼吁,以更好地實(shí)現(xiàn)公共文化服條的功能。從省域分布上來(lái)看,各省級(jí)公共文化機(jī)構(gòu)都有著各自的主題傾向,但是在大多數(shù)省份文化表演活動(dòng)的開展和教育學(xué)習(xí)活動(dòng)的報(bào)道都在總的活動(dòng)文本中占有一定比重,這類活動(dòng)用戶參與強(qiáng)、展示度高。

        5.2 研究局限

        本文雖然得到了些有意思的結(jié)論,但也存在一些不足或局限。

        (1)只選取了省一級(jí)的圖書館與文化館兩類公共文化機(jī)構(gòu),一方面公共文化機(jī)構(gòu)類型不夠豐富;另一方面,有些地方特色的文化服條活動(dòng)與模式在市級(jí)、區(qū)縣級(jí)表現(xiàn)得更多一些。

        (2)本文只選擇了公共文化服條機(jī)構(gòu)的官方網(wǎng)站信息,而有些公共文化服條機(jī)構(gòu)的官方微博、微信公眾號(hào)等信息也比較豐富。只用官方網(wǎng)站信息雖然在全局上可以描述整體情況,但對(duì)具體的某個(gè)機(jī)構(gòu)來(lái)講,信息難免有所偏頗。

        (3)雖然本文根據(jù)所選的主題領(lǐng)域?qū)ψ远x詞典進(jìn)行了擴(kuò)充,但仍有一些機(jī)構(gòu)名稱、活動(dòng)事件名稱未被準(zhǔn)確識(shí)別,影響了分詞效果及后續(xù)研究。在之后的研究中可針對(duì)這些專有名詞開展命名實(shí)體識(shí)別,進(jìn)一步改善模型效果。

        猜你喜歡
        分詞文本活動(dòng)
        “六小”活動(dòng)
        “活動(dòng)隨手拍”
        行動(dòng)不便者,也要多活動(dòng)
        中老年保健(2021年2期)2021-08-22 07:31:10
        在808DA上文本顯示的改善
        結(jié)巴分詞在詞云中的應(yīng)用
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        三八節(jié),省婦聯(lián)推出十大系列活動(dòng)
        海峽姐妹(2018年3期)2018-05-09 08:20:40
        值得重視的分詞的特殊用法
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進(jìn)文本
        久久精品免费视频亚洲| 亚洲综合自拍| 最新亚洲无码网站| 在线视频自拍视频激情| 国产丰满乱子伦无码专| 国产自拍视频一区在线| 精品精品国产高清a毛片| 国产伦精品一区二区三区免费| 国产精品一区二区av片| 白白白色视频在线观看播放| 色呦呦九九七七国产精品| 少妇私密会所按摩到高潮呻吟| 亚洲成a人片在线看| 日本道免费一区日韩精品| 久久精品国产亚洲av不卡国产| 精品无码国产一区二区三区av| 麻豆国产高清精品国在线| 亚洲毛片av一区二区三区| 国产日产久久高清ww| 激性欧美激情在线| 国产日产精品久久久久久| 一区二区三区视频偷拍| 妺妺窝人体色777777| 日韩a无v码在线播放| 2017天天爽夜夜爽精品视频| 国产三级av大全在线爽| 色诱视频在线观看| 日韩在线精品国产成人| 久久久亚洲精品蜜臀av| 在线一区二区三区国产精品| 又爽又黄又无遮挡网站| .精品久久久麻豆国产精品| 国产又粗又猛又黄色呦呦| 中文字幕亚洲中文第一 | 国产午夜福利片在线观看| 国产无遮挡a片又黄又爽| 欧美亚洲另类 丝袜综合网| 在线播放草猛免费视频| 亚洲午夜无码av毛片久久| 白嫩少妇激情无码| 少妇高潮紧爽免费观看|