潘 芳,劉智宇,向 蘭,高丁亞
(1.深圳市匯星數(shù)字技術(shù)有限公司,廣東 深圳 518107;2.長(zhǎng)沙學(xué)院 經(jīng)濟(jì)與管理學(xué)院,湖南 長(zhǎng)沙 410022;3.湖南大學(xué) 金融與統(tǒng)計(jì)學(xué)院,湖南 長(zhǎng)沙 410006)
第52次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2023年6月,我國(guó)網(wǎng)民規(guī)模10.79億人、互聯(lián)網(wǎng)普及率76.4%。與之相伴的是各類網(wǎng)絡(luò)媒體平臺(tái)強(qiáng)勢(shì)崛起。相對(duì)于傳統(tǒng)媒體,網(wǎng)絡(luò)媒體環(huán)境下的信息在傳播主體和速度、靈活性、多樣性等方面具有明顯的優(yōu)勢(shì)。這使得網(wǎng)絡(luò)媒體逐漸成為人們發(fā)布、獲取信息的主要渠道。在今日頭條、微博熱搜、知乎熱榜等網(wǎng)絡(luò)媒體上的新聞事件,常常成為社會(huì)關(guān)注和公眾輿論的焦點(diǎn)。一些關(guān)于文化遺產(chǎn)保護(hù)的負(fù)面事件,如2017年的“八達(dá)嶺長(zhǎng)城被刻字”、2020年的“女子閉館日開(kāi)車進(jìn)故宮”等,都是先在網(wǎng)絡(luò)媒體上被傳播,引發(fā)強(qiáng)烈反響并成為輿情事件后,才受到相關(guān)各方的重視并加以整改,進(jìn)而促進(jìn)了文化遺產(chǎn)保護(hù)與管理水平的提高。網(wǎng)絡(luò)媒體的輿情能映射文化遺產(chǎn)保護(hù)的各方面,為各方感知和監(jiān)督文化遺產(chǎn)保護(hù)提供重要的支持。因此,對(duì)網(wǎng)絡(luò)媒體環(huán)境下的文化遺產(chǎn)輿情大數(shù)據(jù)進(jìn)行監(jiān)測(cè),非常有必要。
目前,文化遺產(chǎn)的輿情分析已經(jīng)開(kāi)始受到重視。中國(guó)遺產(chǎn)研究院多次對(duì)年度中國(guó)世界文化遺產(chǎn)的網(wǎng)絡(luò)輿情進(jìn)行分析和報(bào)告[1];中國(guó)非物質(zhì)文化遺產(chǎn)保護(hù)中心也在2021年的“文化和自然遺產(chǎn)日”對(duì)相關(guān)的網(wǎng)絡(luò)輿情進(jìn)行了監(jiān)測(cè)和分析。如“鳳凰古鎮(zhèn)門票事件”“麗江古鎮(zhèn)旅游利益相關(guān)者沖突事件”等事件的網(wǎng)絡(luò)輿情,也受到學(xué)者們的關(guān)注和分析[2-3]。盡管如此,在文化遺產(chǎn)輿情監(jiān)測(cè)系統(tǒng)建設(shè)上,卻僅有2014年上線運(yùn)行的“中國(guó)世界文化遺產(chǎn)監(jiān)測(cè)預(yù)警總平臺(tái)”中建設(shè)了一個(gè)輿情監(jiān)測(cè)的模塊[4]。實(shí)際上,網(wǎng)絡(luò)輿情大數(shù)據(jù)監(jiān)測(cè)的方法與技術(shù)已不再是瓶頸,已有國(guó)內(nèi)外學(xué)者對(duì)南海問(wèn)題輿情監(jiān)測(cè)、Twitter上的流行病輿情監(jiān)測(cè)[5]、Twitter上的流行病輿情監(jiān)測(cè)[6]等進(jìn)行了研究。本文借鑒前人研究中的方法與技術(shù),設(shè)計(jì)了文化遺產(chǎn)網(wǎng)絡(luò)輿情大數(shù)據(jù)的監(jiān)測(cè)系統(tǒng)。該系統(tǒng)致力于為各方及時(shí)把握文化遺產(chǎn)的發(fā)展動(dòng)態(tài)、發(fā)現(xiàn)文化遺產(chǎn)保護(hù)的現(xiàn)存問(wèn)題、洞悉文化遺產(chǎn)保護(hù)的社會(huì)訴求,提供全新的方式與渠道。
系統(tǒng)設(shè)計(jì)為知識(shí)層(底層)、運(yùn)行層(中層)、展示層(上層),系統(tǒng)模型和運(yùn)行流程如圖1所示。系統(tǒng)能夠?qū)Ω黝惥W(wǎng)絡(luò)媒體上關(guān)于文化遺產(chǎn)的輿情大數(shù)據(jù)進(jìn)行持續(xù)采集,并對(duì)采集的數(shù)據(jù)進(jìn)行清洗、分類存儲(chǔ)及信息挖掘等,實(shí)現(xiàn)文化遺產(chǎn)網(wǎng)絡(luò)輿情的動(dòng)態(tài)監(jiān)測(cè)。監(jiān)測(cè)內(nèi)容包括,文化遺產(chǎn)的災(zāi)害和事故、景區(qū)-游客沖突、民眾訴求、正負(fù)面新聞等。系統(tǒng)能夠自動(dòng)生成輿情分析簡(jiǎn)報(bào)定期發(fā)送給相關(guān)人員。當(dāng)設(shè)定的監(jiān)測(cè)指標(biāo)超過(guò)閾值時(shí),系統(tǒng)也自動(dòng)生成輿情預(yù)警信息發(fā)送給相關(guān)人員。
圖1 系統(tǒng)模型與運(yùn)行流程
系統(tǒng)包括5個(gè)模塊,各模塊名稱及其功能如下。(1)文化遺產(chǎn)知識(shí)庫(kù)模塊:本模塊對(duì)基于文化遺產(chǎn)相關(guān)的文獻(xiàn)資源、網(wǎng)絡(luò)媒體輿情資源,進(jìn)行整理、歸類,總結(jié)文化遺產(chǎn)涉及的基本術(shù)語(yǔ)、術(shù)語(yǔ)關(guān)系、主體類型、事件類型、敏感詞庫(kù)、負(fù)面詞庫(kù)等信息,進(jìn)而構(gòu)建文化遺產(chǎn)領(lǐng)域本體,為輿情大數(shù)據(jù)監(jiān)測(cè)與預(yù)警做好知識(shí)庫(kù)上的支撐。(2)文化遺產(chǎn)輿情采集模塊:本模塊基于文化遺產(chǎn)領(lǐng)域本體,爬取網(wǎng)絡(luò)媒體輿情大數(shù)據(jù),并對(duì)爬取的數(shù)據(jù)進(jìn)行清洗。之后,基于知識(shí)庫(kù)中的主體、事件類型等信息,對(duì)輿情數(shù)據(jù)進(jìn)行分類,并存儲(chǔ)至文化遺產(chǎn)輿情數(shù)據(jù)庫(kù)中。(3)文化遺產(chǎn)輿情存儲(chǔ)模塊:本模塊首先基于文化遺產(chǎn)知識(shí)庫(kù),通過(guò)對(duì)文化遺產(chǎn)輿情的主體、事件類型等方面的分析,在確定文化遺產(chǎn)輿情存儲(chǔ)數(shù)據(jù)庫(kù)的功能、結(jié)構(gòu)后,構(gòu)建文化遺產(chǎn)輿情存儲(chǔ)數(shù)據(jù)庫(kù)。(4)文化遺產(chǎn)輿情監(jiān)測(cè)模塊:本模塊基于文化遺產(chǎn)輿情存儲(chǔ)數(shù)據(jù)庫(kù),對(duì)輿情大數(shù)據(jù)進(jìn)行定期的分析及可視化,包括主題提取、熱點(diǎn)話題分析等,并對(duì)敏感、負(fù)面輿情自動(dòng)生成預(yù)警簡(jiǎn)報(bào),通過(guò)郵件、微信等方式發(fā)送給相關(guān)人員。(5)文化遺產(chǎn)輿情展示模塊:本模塊對(duì)輿情數(shù)據(jù)定期的自動(dòng)分析結(jié)果進(jìn)行可視化,并通過(guò)直觀圖表將輿情現(xiàn)況和輿情趨勢(shì)展示到瀏覽器端。同時(shí),本模塊還包含人機(jī)交互部分,能為人工分析輿情數(shù)據(jù)提供接口。
已有研究中雖然具體方法或技術(shù)有所差別,但都是運(yùn)用大數(shù)據(jù)技術(shù)、文本挖掘技術(shù)、機(jī)器學(xué)習(xí)等,對(duì)海量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行爬取、挖掘,最后生成監(jiān)測(cè)報(bào)告等供相關(guān)人員參閱。由于本系統(tǒng)擁有一個(gè)底層知識(shí)庫(kù)的支撐,因此,還需要領(lǐng)域本體構(gòu)建技術(shù),這些關(guān)鍵技術(shù)的介紹如下。(1)本體構(gòu)建技術(shù):本體在計(jì)算機(jī)領(lǐng)域中用于描述語(yǔ)義知識(shí),包含概念與概念之間的關(guān)系以及描述它們的屬性;本體構(gòu)建方法比較著名的有骨架法、IDEF5法和七步法等,其中七步法是最受推崇的方法。(2)網(wǎng)絡(luò)爬蟲(chóng)技術(shù):網(wǎng)絡(luò)爬蟲(chóng)(Web Crawler)是自動(dòng)搜索和獲得網(wǎng)頁(yè)數(shù)據(jù)的計(jì)算機(jī)程序[7];網(wǎng)絡(luò)爬蟲(chóng)通常從若干初始網(wǎng)頁(yè)的URL開(kāi)始,分析頁(yè)面內(nèi)容,提取新的URL并存入待爬行URL隊(duì)列,如此重復(fù)上面的過(guò)程,從而遍歷Web直到滿足終止條件[8]。(3)數(shù)據(jù)庫(kù)技術(shù):文化遺產(chǎn)輿情存儲(chǔ)數(shù)據(jù)庫(kù)的建立。首先,創(chuàng)建基本表、設(shè)置約束條件、管理基本表;其次,創(chuàng)建和管理索引、創(chuàng)建和管理視圖;再次,向數(shù)據(jù)庫(kù)中輸入數(shù)據(jù),并實(shí)現(xiàn)對(duì)數(shù)據(jù)查詢、修改、刪除等操作;最后,編寫存儲(chǔ)過(guò)程、觸發(fā)器等,并調(diào)試通過(guò)。(4)文本挖掘技術(shù):文本挖掘(Text Mining)是基于計(jì)算機(jī)領(lǐng)域和統(tǒng)計(jì)分析領(lǐng)域的相關(guān)理論、方法和技術(shù),從文本中發(fā)現(xiàn)和提取隱含規(guī)律或知識(shí)的過(guò)程[9];常見(jiàn)的文本挖掘任務(wù)有詞云圖繪制、高頻詞統(tǒng)計(jì)、語(yǔ)義網(wǎng)絡(luò)分析、文本主題提取等。
系統(tǒng)各模塊開(kāi)發(fā)所涉及的開(kāi)發(fā)工具如下。(1)文化遺產(chǎn)知識(shí)庫(kù)和輿情存儲(chǔ)模塊:兩個(gè)模塊都將使用到MySQL和Redis進(jìn)行開(kāi)發(fā)。MySQL數(shù)據(jù)庫(kù)能有效適配各種編程語(yǔ)言,同時(shí)支持在多種操作系統(tǒng)上使用。而使用Redis進(jìn)行數(shù)據(jù)的緩存,能夠有效提升系統(tǒng)的數(shù)據(jù)響應(yīng)速度,減輕MySQL數(shù)據(jù)庫(kù)的讀寫壓力。另外,文化遺產(chǎn)知識(shí)庫(kù)還將使用Protégé,它是本體構(gòu)建的核心工具,也是開(kāi)源且免費(fèi)的。(2)輿情采集模塊和輿情監(jiān)測(cè)模塊:2個(gè)模塊將使用Java和Python進(jìn)行開(kāi)發(fā),二者均是目前非常受歡迎的編程語(yǔ)言,均擁有體系化第三方庫(kù)支撐以及完整的開(kāi)發(fā)生態(tài);同時(shí),這2個(gè)模塊還將使用SpringBoot框架進(jìn)行開(kāi)發(fā),SpringBoot框架的“開(kāi)箱即用”特性能夠減少系統(tǒng)重復(fù)代碼,提高開(kāi)發(fā)效率[10]。(3)輿情展示模塊:將使用HTML語(yǔ)言、Vue和Element UI進(jìn)行開(kāi)發(fā),確保用戶使用不同的瀏覽器進(jìn)入系統(tǒng)時(shí)都能夠具有良好的兼容性。
本文設(shè)計(jì)了文化遺產(chǎn)網(wǎng)絡(luò)輿情大數(shù)據(jù)的監(jiān)測(cè)系統(tǒng),系統(tǒng)能為把握文化遺產(chǎn)的發(fā)展動(dòng)態(tài)、發(fā)現(xiàn)文化遺產(chǎn)保護(hù)中的問(wèn)題、洞悉文化遺產(chǎn)保護(hù)的社會(huì)訴求提供新的渠道。系統(tǒng)設(shè)計(jì)的功能不僅可以從海量網(wǎng)絡(luò)輿情數(shù)據(jù)中挖掘出更有價(jià)值、更深層次的信息,還能大幅降低輿情信息獲取時(shí)間和人工成本。另外,系統(tǒng)的實(shí)現(xiàn)將綜合應(yīng)用多種方法、技術(shù)和工具,將促進(jìn)跨學(xué)科方法、技術(shù)的交叉與融合。